堅牢なデータ戦略への 6 つのステップ

Strategy   |   Taylor Porter   |   Jan 5, 2021

データ準備は、1 週間のうちで最も時間のかかる反復作業の 1 つです。生データを適切な方法でクリーニング、検証、統合しなければ、ダーティデータ (不正なデータ) が蔓延してしまい、インサイトを得られたとしても、信頼に足るものではなくなってしまうでしょう。

では、データ準備で、ダーティデータを抑え込み、企業が頼りとするデータを保護するためにはどうすればよいのでしょうか?

そこで必要となるのが、スーパーヒーローのような超人的能力です。

マント、シールド、バットラング(バットマンの武器)で、データを流れ弾(つまりフォーマットエラー、不正確なデータ、外れ値など)から守り抜くのです。 それを叶える最強のデータ準備戦略をご紹介します。以下の 6 ステップにしたがって、成功への道を切り拓きましょう!

 

1. 全体を 俯瞰してみる

新しいデータセットを使って集中的に作業を始める前に、思い切って生のデータに足を踏み入れ、少し探索してみることをお勧めします。アベンジャーズのホークアイのように超人的な視力が備わっていれば便利ですが、必ずしも必要というわけではありません。何を探しているのか頭の中でイメージしつつ、まずは心をオープンにして、データに語らせて みましょう。

ヒント:データ探索

  • 列名やフィールドの説明に目を通し、目だつ異常、情報の欠落や 不備などがないかを確認する。
  • 変数の健全性をチェックする(固有値がどの程度 含まれているか?範囲やモードは?)。
  • 誤った結果をもたらす可能性がある異常なデータポイントを検出する(ボックスプロット、ヒストグラム、散布図などの視覚的な手法や、z スコアなどの数値的アプローチを利用)。
  • 外れ値を精査し、調査、調整、除外、無視する必要があるかどうかを判断する。
  • パターンや相関性から統計的有意性を判断する。

2. データを洗練させる

エラーや不整合だらけのデータ (ダーティデータ) には大きな代償が伴います。
このようなダーティデータが、企業に年間数百万ドルもの収益損失をもたらす可能性があることが、さまざまな研究によって明らかになっています。こうしたデータによる莫大な損失を回避るためには、徹底的にデータをクリーニングする必要があります。

ヒント:データクレンジング

  • サーバーに負荷をかけ、分析に悪影響をもたらす重複レコードを排除する。
  • 解決すべき問題に影響しない行や列を削除する。
  • 情報の欠落や不備を精査し、必要に応じて削除する。
  • データ探索中に発見した不要な外れ値を除去する。
  • 文字の体裁、大文字小文字、略語、書式設定、余分な文字などによる構造的エラーを修正する。
  • 作業の正確性、完全性、一貫性を検証し、使用したすべてのツールと手法を文書化する。

3. 強力なデータどうしを組み合わせる

分析に組み込むでデータソースのクオリティが高くなるほどに、より深く、より豊富なインサイトが得らるようになります。一般的なプロジェクトでは  6 つ以上のデータソースが用いられることが多く、それらをシームレスに統合するデータブレンディングツールが必要となります。高品質なデータで構成される究極のチームを結成しましょう。

ヒント:データブレンディング

  • 取得と準備:最新のデータツールでは、スプレッドシートに準拠したファイルを作成したりする必要はなく、解決を必要とするビジネス上の課題に関連するあらゆるファイルや構造を取り込み、すべてのデータセットを共通の構造に素早く変換することができます。これにより、各種ファイルや文書、クラウドプラットフォーム、PDF、テキストファイル、RPA ボット、アプリケーション資産(ERP、CRM、ITSM など)といった多様なデータセットを活用することが可能となっています。
  • ブレンド:スプレッドシートでこの作業を行う場合は VLOOKUP が必須となりますが、かなりの手間がかかります。一方、セルフサービス分析を利用する場合は、このプロセスはドラッグアンドドロップのみで完了します。
  • 検証:結果の一貫性を確認し、一致しないレコードがあれば、さらなるクレンジングやその他の準備作業が必要かどうかを検討します。

4. データセンスを高め、危険を察知する

データプロファイリングは、データ探索のいわば「いとこ」といえますが、より精密な調査を必要とします。つまり、特定のプロジェクトや用途に関連するデータセットを綿密に調査することを意味します。直感とノウハウを駆使して、そのデータセットを利用すべきかどうか判断する必要があり、企業にとって深刻な財務的影響を及ぼす可能性のある大きな決断となっています。

ヒント:データプロファイリング

  • 構造のプロファイリング:データセットの規模や、含まれているデータの種類は何か?形式に一貫性があり、正確で、出力先と互換性があるか?
  • コンテンツのプロファイリング:データにどのような情報が含まれているか?ギャップやエラーはないか?この段階では、数値フィールドのサマリー統計を実行し、Null、空白、固有値などをチェックするとともに、スペル、略語、ID などの構造的エラーを特定します。
  • 関係性のプロファイリング:データに重複やズレがないか? データ間にどのようなつながりがあるのか?例えば、セルどうしをつなぐ数式や、外部ソースから定期的に情報を収集するテーブルなどが挙げられます。すべての関係性を特定して記述し、データを新しい保存先に移す際には、それらの関係性も必ず保存します。

5. 「秘密基地」を確立する

利用可能なデータソースは膨大かつ複雑です。そのため、これらのデータソースを抽出して統合し、いつでも必要に応じて分析用に取得するには、保存場所の一元化が不可欠です。— 保存したデータには、いわゆる「秘密基地」が必要になるということです。

ヒント:ETL(抽出、変換、ロード)

  • 抽出:構造化または非構造化、1 つまたは複数のソースなど、あらゆる必要データを抽出し、その品質を検証します。(レガシーシステムや外部ソースからデータを取得する場合は、特に念入りに行いましょう)
  • 変換:徹底的なクレンジングを行い、フォーマットが出力先の技術要件に適合するようにします。
  • ロード:変換されたデータを保存先(通常はデータウェアハウス)に書き込みます。その後サンプリングを実行し、データ品質にエラーがないか確認します。

6. ラングリングでデータを整理する

データラングリング」は、広義的に「データの準備」という意味で使われることが多いですが、実際には、分析や予測モデルの構築の過程で行われる準備を指します。初期段階から入念にデータを準備していたとしても、分析の開始時に、モデルがデータを取り込めるように、再度データラングリング(またはデータマンジング)を行う必要が生じることがあります。

ヒント:データラングリング

  • 探索:モデルが思ったとおりに動作しない場合は、データに戻って原因を探ります。
  • 変換:分析に用いるモデルを念頭に置いてデータを構造化します。必要な出力を得るために、データセットの向きを変える必要がある場合は、その分データ操作に時間をかけなければなりません。(自動分析ソフトウェアでは、こうした作業をワンステップで実行できます)
  • クレンジング:データのエラーを修正し、重複を削除します。
  • 強化:信頼性の高いサードパーティデータなどのソースを追加します。
  • 保存:ラングリングは手間のかかる作業です。将来的に再現できるように、プロセスを保存しておきましょう。

こうした6 つのステップに従うことで、データはスーパーマンのように「飛行機よりも速く、弾丸を跳ね返し、大きな赤いマントをなびかせる」ような無敵の存在となります。

VLOOKUP や手作業のプロセスにうんざりしているなら、ぜひ自動化を試してみてください。自動化されたセルフサービス分析プラットフォームを使用すれば、セルフサービスの自動分析プラットフォームでは、あらゆる形式のデータにアクセスし、準備のプロセスを自動化することができます。

データ準備を自動化すると、次のようなメリットが得られます。

  • 迅速な成功: プラットフォームの自動化により、多くの組織が数日から数週間のうちに目に見える成果を生み出しています。
  • 効率的なデータ処理: 自動化により、単純作業から解放され、創造的な業務に集中できるようになります。また、同じようなデータの課題を何度も解決する必要がなくなります。
  • データの民主化: 誰もがデータを活用できる環境を整えることで、あらゆる階層の従業員が、自分の能力を高める新たな方法を手に入れられるようになります。

このような目覚ましい変化を実現し、組織にかつてない革新をもたらすのが、アナリティック・プロセス・オートメーション(APA)です。
APA の詳細と、APA がどのように分析スキルの向上に役立つかをご覧ください。

以下でさらなる詳細をご覧いただけます。

読み物

最新の分析アプローチへのスムーズな移行を実現するための方法を、データ分析のための決定的ガイドでご覧ください。

体験する

Alteryx データブレンディングスターターキットで、データブレンディング習得への道のりを歩み始めましょう。

Tags