関連記事
データの標準化とは
データの標準化においては、データ変換を実行するソフトウェアのアルゴリズムが、データを格納するシステムから分離されます。これらのアルゴリズムのロジックは、コードではなく、人間が判読可能なルールで管理されており、開発者やIT部門に依存せず、誰でも視覚的なインターフェイスを通じて管理することが可能です。データの標準化では、データがどのように取得、標準化、統合されるかという複雑なセマンティクス(データの意味論)をより分かりやすく簡略化します。これにより、新たなパートナー企業の円滑なオンボーディング(受け入れ)や、新規データプロバイダーのデータと既存のデータを論理的に統合するルールの強化が可能となり、より迅速かつ正確なデータ分析を実現できます。
データの標準化の重要性
すべてのビジネスデータ要素を完璧に定義できる統一された手法はいまだに普及していないため、データマッピング(データベース間でさまざまなデータを統合させるプロセス)は今後も不可欠なプロセスになると考えらえます。ただしデータマッピングは、それほど大変なものではありません。また、データマッピングの最近のトレンドの1つに、プロセス全体の仮想化が挙げられます。
データの格納・移行システムのコードに、標準化のロジックをハードコードするケースが良く見られますが、そのためには複数の場所に分散している標準化コードの作成、保守、デバッグに多大な時間を費やさなければならず、データの品質や再利用が制限されることになります。また、こうした複雑な標準化のロジックのために、新たなパートナーの受け入れに遅れが生じ、収益機会を逃してしまう恐れもあります。
この問題を解決するのが、仮想化を通じて標準化コードを分離・抽象化するというデータ変換のユニークなアプローチです。これにより、ビジネスユーザーが標準化のルールを視覚的なインターフェースで定義し、クエリ時に簡単にロジックをコードに変換できるようになります。こうした仮想化により、ビジネスのスピードを速め、新たなパートナーの迅速なオンボーディングも実現できるようになります。
データ標準化プロセス
新しいデータプロバイダーのオンボーディング時に、分析自動化プラットフォームは、独自のデータスキャナーを用いて、あらゆる形式やデータソースのデータを解釈します。このプラットフォームは、新しい生データに含まれる要素によって自動的に拡張され、ビジネスに必要なすべての変換ロジックを含む普遍的な仮想データレイヤーを作成します。
これらの仮想データ列とその変換によって、プラットフォーム上でいつでも生データを照会できるようになるため、データの移動やコピーが不要となり、生データの最新の変更をすばやく照会結果に反映させることが可能になります。スキーマの変更が検出されると、プラットフォームはデータレイヤーで必要な調整を行い、生のデータ要素を正しく参照するようにします。
仮想のデータ列を追加することで、ビジネスユーザーは仮想のルールを定義し、データを標準化・統合できるようになります。これらのルールはコードで保持されず、仮想的なものとなり、人間が理解できる形で管理されるため、ビジネスユーザーをはじめとした誰もが容易に管理することができます。Alteryxではクエリ時にのみ、テーブルやビューの作成に必要となるコードを自動的に作成します。
データの変換時に維持されるルールには、次の3種類があります。
分類ルール:このルールでは、パートナーのデータの列と値を、データアグリゲーターのデータとマッピングします。例えば、パートナーは、取引に「決済金額」と「決済タイプ」の2つの列があると記述することができ、タイプは3つのオプションのうちのいずれかとなります。
再整形ルール: このルールでは、パートナー側からどのようにデータの要素を収集し、データアグリゲーター側でどのように配分するかを指定します。例えば、小売業者が全取引データを 1 つのファイルで提供し、アグリゲーターがそれらを 3 つのテーブル(取引用、小売業者用、消費者用)に分割する必要がある場合に、このルールを適用します。
セマンティックルール:これらのルールでは、データの要素が持つ意味と、それらがどのようにビジネスに用いられるかの定義を記述・明確化します。たとえば、「何を持って取引が成立したとみなすべきか?」「返金を考慮した最終的な決済額をどのように計算するべきか?」といったことが挙げられます。各データプロバイダーは、その事業の領域内で有効な独自のセマンティクスを持っており、データアグリゲーターは、これらすべてのプロバイダー間でデータの定義の一貫性を確保する必要があります。
Alteryxでは、こうしたルールを、視覚的なツールを用いて容易に定義することができます。また、多彩な変換機能も備えているため、データの標準化をスムーズに進められます。例えば、ユーザーは列をマッピングして値を標準的なセットに変換したり、XML、CSV、JSON、EDIなどを含む複数のファイルからデータを抽出・統合することができます。
列の順序の変更、列名の変更、値の変更、列の値や型の変更といった一般的な問題は、自動的に処理されます。また、SQLコンソールを使用して、より複雑なロジックを記述することも可能です。さらに、データの検証やレポート作成によって、すべての標準化が正しく行われたかどうかを監視・確認することができます。新規のファイルやレコードが追加・変更されると、データスキャナーが即座にそれらを検出し、関連する標準化ルールを適用するためのSQLコードを動的に生成・実行し、データを標準形式で出力します。
データの標準化で未来を切り拓く
複数のパートナーからのビジネスデータを標準化することは、重要かつ日常的な作業です。そして、ビジネスが拡大し、より多くのステークホルダーと提携し、これらのデータプロバイダーが独自のビジネスロジックに従ってデータセットを生成するようになるにつれ、その重要性と頻度はますます高まっていくと考えられます。データの標準化がビジネスの俊敏性とパフォーマンスに与える影響を考慮すると、複数のソースからデータを収集している企業は、インフラやワークフローの導入、新しいパートナーの受け入れ態勢を慎重に検討する必要があります。
データの標準化を円滑化しませんか?
データプロバイダー独自のビジネスロジックを含み、異なるフォーマットで提供されるデータセットをどのように取り込んで標準化し、比較・集計などの各種分析を一貫して行うかという課題に、多くの企業が直面しています。
Alteryx Analytics Automation Platformは、ETL(抽出、変換、ロード)やデータパイプラインの構築にエンジニアリングを必要とせず、複数のデータソースから簡単にデータ準備を行える環境を実現します。これにより、ビジネスユーザーが理解や統合、ブレンドが難しかったデータセットを自分で処理し、幅広いユースケースで役立つビジネスロジックの把握と検証を即座に行い、データの価値を最大限に引き出せます。