Excel でデータを扱うこと自体はさほど難しくはありませんが、 複数のソースや形式のデータを処理する場合は、多くの手間や時間のかかる作業に なりがちです。Excel では、データは行と列に収めなければならず、サイズにも制限があります。また、 複数のスプレッドシートのデータを結合するには、複雑な数式が必要となり、 意図せぬエラーが生じる恐れもあります。さらに、データが変更されるたびに データの準備とブレンディングのプロセスを一から やり直さなければなりません。
Alteryx では、ワークフローを活用したこれまでにないアプローチにより、 データソースやデータ型に関係なく、非構造化データを含むあらゆるデータの準備、ブレンディング、 分析を行うことができます。最初に 反復可能なワークフローを構築し、データの処理方法を文書化すれば、 データに変更があっても同じワークフローを再利用して結果を得られるため、 データ分析に費やす時間の短縮やエラーの削減を実現するとともに、 一貫性を大幅に向上させることが可能です。
以下に、多くのアナリストが Excel で行っている一般的なデータ関連タスクを 取り上げるとともに、それらを Alteryx でより簡単にすばやく実行する方法をご紹介 します。これらの例は、 Excel ユーザーが Alteryx のツールやワークフローにおいて、Excel の知識をどのように活かせるかを理解することを 目的としています。
Excel ユーザーが Alteryx でどのように作業を効率化できるかの詳細については、 電子書籍 「スプレッドシートユーザーのためのモダンアナリティクスガイド」をぜひダウンロードしてご一読ください。また、Alteryx の無料トライアルはこちらからダウンロードいただけます。
Excel のプログラムを開くには、[ファイル] をクリックし、次に [開く] をクリックします。
Alteryx でデータにアクセスするには、データ入力ツールをキャンバスにドラッグ & ドロップして、データベースを指定および選択します。
次に、設定メニューのプルダウンで [ファイルまたはデータベースを接続する] をクリックします。
ファイルが格納されている任意のフォルダを指定し、クリックすることで開くことができます。
次に、所定のフォルダに格納されたファイルを指定します。
Excel ではローカルファイルから構造化データを開くことができますが、利用環境などでファイルサイズが制限されることがあります。
Alteryx では、複数のデータソースやデータ構造に 幅広くアクセスできます。入力ツールを利用することで、Excel、Access、XML、SAS、SPSS、 MapInfo 、その他の各種データベースや HDFS に保存されているデータなどに簡単にアクセスできます。
さらに、各種コネクタも豊富に提供されているため、Amazon S3、Twitter、Foursquare、Marketo、Salesforce、Microsoft Sharepoint などのクラウドシステムや Amazon Redshift、Impala、Spark などのビッグデータ環境に格納されたデータにも簡単に直接アクセスできます。
Web、テキスト、および広範な他のデータソースからデータにアクセスすることで、ファイルの種類、ソース、構造を柔軟に拡張できます。
Excel の場合、1 つのフォルダに同じ種類のファイル(CSV など)が複数ある場合、1 つずつ選択する必要があります。また、各ファイルは別々のワークシートとして開かれます。
Alteryx で同様の作業を行う場合には、入力ツールをキャンバスにドラッグし、フォルダーを指定してワイルドカード(*)を挿入します。 この例では、2 つの .CSV ファイルを取り込みます。
入力ツールを使用して、任意のディレクトリと ファイルを指定します。この例では、POS_Data を使用します。
POS_Data ファイルを取り込んだら、 設定セクションに移動し、ディレクトリパスに(_*.csv)を追加して 編集します。これにより、同じディレクトリに存在するすべての .CSV ファイルが 取り込まれ、同一のテーブル構造とフォーマットを有している場合、 テーブルが結合されま
Excel で、列の名前を変更するには、該当する項目のセルをクリックすると名称を変更できます。
Alteryx では、セレクトツールを使うことで、列名を自在に変更できます。
Excel で数字を文字列として扱う場合は、数字の前にアポストロフィ( ‘)を付与するか、任意のセルや列を選択し、[セルの書式設定]メニューで、通貨、日付などを選択することで、データ型を変更できます。
Alteryx では、セレクトツールを使って、データ型を必要な形式に簡単に変更 できます。
セレクトツールに加えて、 オートフィールドツールを使用することもできます。このツールでは、 データを自動で解釈し、内容に適したデータ型やサイズを 割り当てることができます。このツールは、特にテキスト文字列が含まれる フィールドに有効です。
もう少し複雑な変換が必要となるケースもあります。例えば日付の場合は、 セレクトツールでは選択した日付形式を解釈できず、 正常に処理されないことがあります。こうしたケースでは、 日時ツールを利用することで問題を解決できます。
計算フィールドで使用されている列を削除する場合には、削除前に元の値をコピーして貼り付けておかないと、計算式が壊れてしまいます。
Alteryx では、 セレクトツールを使用して 不要なものや非表示にしたいものをチェックボックスから外すだけで、 数式に影響を与えることなくワークフローから簡単に削除することができます。
Excel では、目視による手作業での削除や、フィルター機能を使用するなどして、 不要な値を特定して削除します。
削除の条件を一覧化できる場合には、フィルターツールが便利です。複雑なケースの場合には、IF 式を構築したり、switch 関数を 使用することもできます。
Excel で新しいフィールドを作成する際には、 新しい列を挿入し、その列に名前を付け、必要に応じて数式を適用したりすることが一般的です。
Alteryx では、テーブルに列を 挿入するのではなく、 フォーミュラツールを使用することで、ワークフローに新たな出力フィールドを追加できます。新たなフィールド(この場合は「Value Targets」)に 数値を入力をすると、すべての行に対して 計算が自動で適用されます。
ヒント 1:姓と名を連結する必要がある場合は、 + 記号を数式に含めます。ほとんどの テキストベースの数式では、Left () または Right () のように、同じ名称と構文が 使用されています。Alteryx のマニュアル(F1 を押す)では、それ以外のパターンを 確認することができます。
ヒント 2:任意の列を 所定の文字列で分割して処理したい場合(カンマ区切りの値を 分割するなど)は、列分割ツールを使用します。
Excel の IF 文は、利用頻度が非常に高く便利な 条件判定関数です。例えば、Excel で Sales Potential(販売見込み)のスコアを高、中、低として 振り分ける列を作成したい場合、 次のような IF 文を使用します。
=IF(V2>2500, “High”, IF(V2>1499, “Medium”, “Low”))
フォーミュラツールを利用することで、 データや数式を簡単に活用できます。フォミュラツールでは、入力テーブルへの新しいフィールドの追加、 式に基づいた新しいデータフィールドの作成やデータ関係の割り当て、 同じ前提条件に基づいた既存のフィールドの 更新などを、簡単に行うことができます。Alteryx で同様の IF 文を作成するには、 Sales Potential という名前の新しい出力フィールドを作成し、Total Sales フィールドを使用して、 次の式を入力します。
IF [Total Sales] > 2500 THEN “High” ELSEIF [Total Sales] > 1499 && [Total Sales] < 2501 THEN “Medium” ELSE “Low” ENDIF
Excel でオート SUM を利用するには、対象となる範囲の フィールドと行を選択し、オート SUMのアイコンをクリックします。または、SUM 関数を入力しても同様の結果が得られます。
集計ツールを用いることで、 グループ化、集計、カウント、空間オブジェクト処理、 文字列連結などの、多様な集計処理を行うことができます。この 例では、集計ツールを使用して 顧客別の取引をグループ化し、それらの取引を合計することで 顧客の総支出額を算出しています。
Excel で行の累積和を実行するには、新しい列を作成した上で、 累積を実行する範囲を設定します。この例では、開始点を =S2 として、2 行目に =S2 + R3 と数式を入力し、 以降の行に数式をコピーしていくことで、 累積和を計算しています。
複数行フォーミュラツールは、 フォーミュラツールのコンセプトをさらに進化させたもので、 数式作成の過程で行データを 活用できます。フォーミュラツールでは、複雑なデータを解析し、 累計、平均、パーセンテージなどの計算を簡単に 実行できます。この場合には、新しいフィールドを作成して 式を作成します。
Excel で合計をもとに各フィールドのパーセンテージを計算するには、 まずデータのテーブルを作成し、そのデータをもとに ピボットテーブルを作成する方法や、SUMIF 文を用いて、 各月と金額のパーセンテージを 計算する方法などを利用できます。以下はピボットテーブルを利用した例です。
複数フィールドフォーミュラツールでは、 複数のフィールドで 1 つの関数を簡単に実行できます。以下の例では 各月のパーセンテージを表示するデータ内に新しい列とフィールドを 作成しています。
Excel でフィルタリングを行う場合には、フィルタをかけたい項目を 指定し、プルダウンメニューを選択することでデータを絞り込めます。
Alteryx のフィルターツールでは、 基本フィルターを実行して、True(条件式に合致するデータ)と False(それ以外のデータ)にデータを振り分けることができます。
Excel で複数の列のデータを並べ替えるには、 並べ替えを行いたい範囲を指定し、 メニューの [並べ替え] 機能を利用することで、任意の条件に沿って並べ替えできます。
Alteryx ではソートツールを 利用することで、任意の条件に沿った データの並び替えを行えます。並べ替えを行いたい列の項目名と昇順または降順を 指定するだけで、簡単にデータを並び替えることができます。
Excel でデータをピボットしたい場合(データの転置やクロス集計表の 作成などを行う場合)、一般的にはピボットテーブルを 利用します。
転置ツールを使用すると、 データテーブルの方向をピボット(切り替え)できます。このツールでは、横方向に並んだデータを、 縦軸で表示されるように並べ替えることができます。転置ツールは、 非適合データを抽出したい場合などにも役立ちます。また、転置できるレコード またはフィールドのサイズに制限がないため、データサイズを気にすることなく利用できます。
クロスタブツールでは、 データテーブルの方向をピボット(切り替え)できます。このツールでは、縦方向に並んだデータが、 横軸で表示されるように 並べ替えることができます。
Excel で列やフィールドの順序を変更するには、 列を選択した上で、Shift キーを押しながら、列を移動させたい場所まで ドラッグアンドドロップします。
Alteryx では、セレクトツールまたはフォーミュラツールを使って簡単に列を並べ替えることができます。
Excel でデータの追加を行うには、2 つのテーブルの列が完全に同一で、同じ順序に なっていることを確認した上で、次に一方のテーブルの 内容全体をコピーして、もう片方のテーブルの空行に 貼り付ける必要があります。
Alteryx ではこの作業をさらに簡単に行えます。ユニオンツールを使用することで、各列の位置を維持しながら、フィールド名に基づいて 複数のワークシートを組み合わせることができます。各ワークシートの 列ヘッダーの順序を簡単に変更して一致させることが できます。
Excel で複数のワークシートを結合するには、VLOOKUP 式または INDEX MATCH 式を使うことで、 異なるソースやテーブルのデータセットに 情報を取り込むことができます。検索値が左端の列にない場合、 VLOOKUP 式は使用できないため、そのような場合には INDEX MATCH 式が 活躍します。
行方向に複数のデータを結合する際には、 結合ツールが便利です。2 つのデータセットを入力し、 結合ツールを使用することで、両データを結合できます。互換性のある データソースに接続する場合は、入力ツールで結合することもできます 。
結合ツールを使用して、 共通するキー列(プライマリキー)を備える 2 つのテーブルを結合することで、 以下のようにデータを振り分けられます
データベース内のデータを操作する場合は、In-DB 結合ツールを利用することもできます。Alteryx の In-DB 結合ツールでは、データベースからデータを 移動することなく、大規模なデータセットに対してブレンディングや分析を行うことができるため、 分析のパフォーマンスを大幅に 向上させることができます。
In-DB 結合ツールを使用すると、内部結合、左結合、右結合、さらには 完全結合を行うことができます。
Alteryx のインデータベースツールの詳細については、こちらをご覧ください。
Excel でデータを集計する場合は、ピボットテーブルを作成します。
Alteryx の集計ツールは、 Excel のピボットテーブルと同じように利用できます。データをグループ化して、 各フィールドに対して合計やカウントなどの計算を行うことができます。
Alteryx をお持ちでない方は、 無料トライアルをダウンロードの上、ご利用いただけます。
Alteryx の他の機能の詳細や Alteryx ユーザーからのヘルプが必要な場合は、 Alteryx コミュニティをご利用ください。
Alteryx のパートナーである The Information Lab 社の本件へのご協力に、 心より感謝いたします。The Information Lab 社 の詳細については、 こちらをご覧ください。