データアナリストやデータサイエンティストの魅力は、乱れたデータを整理することにあるのではなく、分析とインサイトの創出にあります。それにもかかわらず、データクリーニングのプロセスは通常、分析全体の時間の大部分を占めることになります。平均して80%がデータの整理に費やされ、視覚化や分析、機械学習モデルの構築、その他の高度な分析に充てられるのはわずか20%に過ぎません。
データ分析において、後半の 20% の作業を魅力的に捉えたり、あるいは、初期のデータクレンジングを「本当の」作業の前の単なる必要な障害と見なしてしまうのは簡単ですしかし、乱雑なデータや汚れたデータのクリーニングは、もっと評価されるべきです。これは、より広範なデータ準備プロセスの重要な部分であり、適切に実行すれば、手元のデータに関するインサイトが得られ、より適切な質問ができるようになります。そしてそれは、最終的な分析の土台となるものです。「ゴミを入れればゴミが出る」という表現を耳にしたことがあると思いますが、その本当の意味を覚えておくことが重要です。つまり、乱雑なデータを適切にクリーンアップしないと、その後にどんな高度な分析手法を適用しても、最終的な分析には欠陥が残ります。
乱雑なデータとは何か?
アナリストが新しいデータセットを最初にクレンジングせずに作業を開始することはほとんどありません。それは必ずしもデータセットが「乱雑」であることを意味するわけではありません。しかし、少なくとも分析に必要な基準を満たしていないのは確かです。たとえば、乱雑なデータセットには、修正が必要な特定の標準化(「California」が「Calif」と綴られるなど)が含まれている場合があります。この場合、「CA」と修正するなどの作業がデータクレンジングのー例にあげられます。あるいは、句読点がないはずの電話番号にダッシュが含まれている場合も同様です。
標準化だけでなく、ダーティなデータからクリーンなデータへと処理するためにクリーニングが必要となるエラーの種類は他にもたくさんあります。これらのエラーには次のようなものが挙げられます:
- 欠損データ
- 非構造化データ
- 1列に複数の変数
- 間違った場所に保存された変数
- 観測データが誤って分割されたり、本来は分けるべきデータが適切に分離されていなかったりする場合
- 列と行の入れ替え
- 余白
データが貴重な洞察につながるためには、これらの各エラーをクリーンアップして準備する必要があります。
データセットは複数のソースから取得される場合もあります。各データ ソースは個別には有効ですが、データをブレンドする場合は一貫性を保つために処理が必要になる場合があります。たとえば、あるデータ セットの測定単位が他のデータ セットと異なる場合、正規化が必要になります。
データクリーニングのテクニック
データクリーニング手法の理解は、利用可能なデータ クリーニング ツールの理解から始まります。これまで、アナリストは、手元のダーティデータの複雑さや自身の技術的専門知識に応じて、Excel などのスプレッドシートツール、または SQL、R、Python などのプログラミング言語に依存してきました。現在、アナリストには最新のデータ準備プラットフォームを使用するという選択肢もありますが、これについては後ほど詳しく説明します。
どのデータクリーニング技術やツールを使用しているかに関わらず、アナリストはまずデータの解析から始めます。つまり、データファイルの重要な要素を抽出し、構造化された形式に分割することです。これにより、アナリストはデータを正しく理解できるようになり、乱雑な数値の集合を解読するのではなく、初期の識別要素やパターンを明確に浮かび上がらせることができます。
データ解析後、アナリストはより具体的なデータクリーニング タスクに進みます。上記で確認したように、これにはさまざまな問題が含まれる可能性があり、データのクリーニングを開始する特定の順序はありません。アナリストは、余分なスペースや重複データを削除することから始めるか、すぐにデータを新しい行と列に構造化することから始める場合があります。
ただし、データ クレンジングは 1 回限りの作業ではなく、反復的なプロセスであると考えることが重要です。アナリストが自分でデータを準備すると、乱雑なデータを変換するための新しいアイデアが生まれることがよくあります。また、分析に移った後でも、不規則性や興味深いインサイトに気づいた後、データを別の形に変換するために戻ってくることもある。
ダーティ・データの課題とは?
歴史的に、組織がダーティ データのクリーニングについて不満を訴える場合、それは次の 3 つの問題のいずれかに関連しています。
- 時間がかかる。
前述したように、アナリストは、ダーティからクリーンへのデータ処理に分析全体の最大80% を費やす可能性があります。データクリーニングは分析プロセスの重要な一部ではあるが、アナリストはデータクリーニングのために雇われたわけではありません。データのクリーニングに費やす時間が長くなればなるほど、組織にかかるコストも増大します。 - 技術的なことだ。
より高度なデータ プロジェクトの場合、組織は高度なプログラミング スキルを持つ高額なデータ サイエンティストやデータ エンジニアを雇用する必要がありますが、そのほとんどの時間は乱雑なデータの整理に費やされることになります。プログラミング言語は、大規模で複雑なデータの処理に効果的ですが、データの準備が少人数のグループに限定されるため、大きなボトルネックが発生します。 - エラーが起こりやすい。
他の人の目で確認できない場合は、何でもエラーが発生しやすくなります。これは Excel でもプログラミング言語でもよく見られる現象です。これらのツールは本質的に視覚的ではないため、他のユーザーがこれらのツールで適用されたデータクリーニング手法を修正したり、改善するための提案を追加したりすることが困難 (またはほぼ不可能) になることがよくあります。
データ準備プラットフォームで乱雑なデータを処理する
組織が分析の拡張を求めるにつれて、乱雑なデータの処理に関する課題は増加するばかりです。そのため、多くの企業がAlteryx Designerのようなデータ準備プラットフォームを採用しており、あらゆる種類のアナリストのためにデータのクレンジングと準備のプロセスを加速させています。
ここでは、Designer 、乱雑なデータに伴う課題をどのように解決していくかを紹介します:
- 時間の制約がある。
Alteryx Designer は、機械学習によってガイドされる視覚的なデータ準備エクスペリエンスを提供し、全体的なプロセスを最大 90% 加速します。アナリストは、Excel データセットを何時間もかけて調べたり、データをクリーンアップするためのコードを書いたりする必要がなくなります。代わりに、Designer で数回クリックしたりスワイプしたりするだけで、同じ結果を生成できます。 - 技術的制約。
Designer のデータクリーニング技術を使用するためにプログラミング言語の知識は必要ありませんが、プログラマーと同等のパワーを提供します。大規模なデータへの大量変更、サンプル データの統計の理解、複雑な変換などは、あらゆる種類のアナリストが Alteryx で実行できる機能のほんの一部です。 - 不正確なデータ。
データセットは効果的かつ効率的に準備する必要があります。Designer は、アナリストが遅れをとらないように、修正すべきエラー、外れ値、欠落データを自動的に表示します。さらに、機械学習によって生成された提案により、アナリストは乱雑なデータに対して最適な変換を選択できます。
Designer は、ダーティなデータからクリーンなデータへの処理をより効率的かつ管理しやすいものにするために作成されました。今では、アナリストが乱雑なデータセット(すべてのデータセットは何らかの形で乱雑です)に直面しても、それを分析に使用できるデータに簡単にまとめることができます。
