データクレンジングとは
データクレンジング(data cleansing)は、データクリーニングやスクラビングとも呼ばれ、生のデータセットからエラーや重複、無関係なデータを特定して 修正するプロセスです。データクレンジングはデータ準備プロセスの 1 つであり、 データの精度を改善し、信頼性の高い可視化やモデルの構築を可能にすることで、 より良いビジネス上の意思決定を実現できるようになります。
データクレンジングの重要性
どんなに優れた分析やアルゴリズムをもってしても、質の低いデータから価値を引き出すことはできません。企業に存在するデータの 30% 近くに、何かしらの問題があり、こうした不正確なデータによるコスト損失は企業全体の収益の 12% を占めると言われています。 さらに、こうした金銭的面以外にも、さまざまな問題が引き起こされています。データクレンジングを活用すれば、一貫性があり、構造化された正確なデータを生成できるようになるため、 確かな情報に基づいたスマートな意思決定が可能となります。また、アップストリームのデータ入力とストレージ環境における改善点を明らかにすることで、 継続的に時間やコストを節約できるようになります。
データクレンジングのプロセス

データクレンジングは、あらゆる分析プロセスにおいて不可欠なステップであり、通常、以下の 6 つのステップを含みます。
重複の排除: 複数のソース(表計算シート、ウェブサイト、データベースなど)の統合時、 お客様の連絡先が複数存在する場合などにおいて、 重複を排除します。重複したデータがあると、サーバーの容量や処理リソースを消耗し、 ファイルのサイズも必要以上に大きくなり、分析の効率性の低下につながる恐れがあるため、早期の対処が重要です。 重複の排除に関するルールは、 企業ごとに自由に決められます。例えば、同一のお客様がウェブサイトの異なるページで異なる電子メールを送信した場合に、 保守的なアプローチとして「すべてのフィールドが完全に一致するデータ行だけを削除する」といったルールを定めることができます。
無関係なデータの削除: 解決すべき問題に関係のないデータは、 処理時間の遅れにもつながります。この工程では、そうした無関係なデータを取り除き、より効率的に分析を行うことができるようにします。 削除対象となったデータは、元々のデータソースには保持されますが、分析からは排除されます。たとえば、昨年のキャンペーンを調査する場合、 昨年以外のデータを含める必要はありません。ただし、たとえ特定の変数が必要ないとしても、 調査結果と相関している可能性がある点には留意してください (例えばお客様の年齢は、メールキャンペーンのテストの効果を測るうえで、欠かせない変数かもしれません)。
不完全なデータの管理: データの値が欠落している場合(顧客が特定の情報を提供しなかった場合など)、 偏りや計算ミスを防ぐためにも、早急に対処することが 不可欠です。[0]、[NA]、[none]、[null]、[not applicable]と表示される不完全な値を特定して調査した後、 これらが妥当な値であるか、または情報の欠落によるものなのかを 判断します。最も簡単な解決策は、不完全なデータを削除することですが、 その結果として生じる可能性のあるバイアスに注意する必要があります削除する代わりに、統計や条件付きのモデリングに基づいて NULL 値を代替値に置き換えたり、 欠損データにフラグを付けてコメントを付けたりもできます。
外れ値の特定: 母集団から大きくかけ離れたデータポイントは、 データを大きく歪めてしまう可能性があります。これらの外れ値は、箱ひげ図(ボックスプロット)、ヒストグラム、散布図、Z スコアなどの 視覚的または数値的手法で特定できます。自動化されたプロセスでは、 前提条件を迅速に検証し、データの問題を確実に 解決することが可能です。外れ値を特定したら、その外れ具合や分析に使用する統計手法などに応じて、 そのまま残すか、省くかを選択できます。
構造的エラーの修正: 誤植、大文字、略語、フォーマットなどのエラーや不一致の修正は 非常に重要なステップです。各列のデータ型を確認し、入力が正しく一貫性があるかどうかを確認し、必要に応じて修正するとともに、 フィールドの標準化、余分な空白などの不要な文字の削除なども 行います。
検証: 検証は、データの正確性、完全性、一貫性、均一性を 確認するプロセスです。データクレンジングのプロセス全体で検証が行われますが、 念のため、サンプルを実行して検証しておくことをおすすめします。また、クレンジングプロセスで使用したツールや手法を 文書化することも重要です。
これからのデータクレンジング
データクレンジングは効果的な分析に不可欠ですが、時間やリソースを浪費する 手作業主体のサイロ化されたプロセスになりがちです。アナリティックプロセスオートメーション(APA)では、反復可能でスケーラブルで、誰もが簡単に活用できるデータクレンジングを 可能にするだけでなく、以下のような多様なメリットも得ることができます。
- データと分析の民主化
- ビジネスプロセスの自動化
- 社員のスキルアップを促し、短期間で画期的な成果を創出
Alteryx のアナリティックプロセスオートメーション(APA)では、データサイエンスや機械学習の容易な実現を叶え、 より良い分析への明確な道筋を提供します。
データクレンジングを活用しませんか?
手動によるデータクレンジングは、面倒でミスが発生しやすく、時間もかかります。Alteryx Analytics Automation™では、使いやすい自動化ビルディングブロックを用いて、 コード不要かつ多彩なアプローチで問題のあるデータを識別し、 修正することができます。Alteryx の分析プラットフォームでは、優れた分析に不可欠となるデータの探索や、 データのクリーンアップを手間なく簡単に実行できます。Alteryx では、 構築したワークフローは恒久的に自動化でき、高速かつ反復可能で、監査可能なプロセスをいつでも再現することができます。