[コグラフ]spss modelerによるデータ加工入門

SPSS Modelerによる
データ加工入門
Co-graph Inc.
Takahashi Masaki

Co-graph confidential 2
本スライドは、SPSS Modelerに興味を持った
人/使い始めた人のために、SPSS Modelerを
使ったデータ加工の進め方を解説した資料です。
IBM(R) SPSS Modeler（以下、Modeler）の独自形式の
ファイルのことをストリームファイルと言います。
本スライドで使用しているサンプルデータと
ストリームファイルは、「コグラフ公式テクニカルWeb」から
ダウンロードできます。
http://www.co-graph.net/
「コグラフ公式テクニカルWeb」には、本スライドに
記載しきれなかった情報もたくさんありますので是非ご覧ください。
 IBM、IBM ロゴ、ibm.com、SPSSは、世界の多くの国で
登録されたInternational Business Machines Corp.の商標です。

SPSS Modelerとは？
そもそも…

・データの加工と分析をするソフトです。
・データマイニングに必要な機能は
ほぼ揃っています。
・データ加工がしやすいです。
・本格的なわりに、習得のハードルが低いので
大企業を中心に世界中で使われています。

ではさっそく…
CSVデータの取り込みと内容表示
についてご説明します

初めてModelerを使う人にとって、データの加工プロセスを「ノード」単位
で行っていく操作は、不慣れなものではないかと思います。
下の例は、CSVデータを取り込んで、表(テーブル)で表示するというごく簡
単なプロセスです。
Modelerでは、これらのような丸と四角のアイコンを「ノード」と呼んでい
ます。
また、このような、一連のノードを通過するデータ処理の流れのことを「ス
トリーム」といいます。
本資料では、まず上図のストリームを構築する方法についてご説明します。

とりあえず…
CSVファイルを取り込んでみましょう

【1】
CSVデータの取り込みについては、
Windows上からCSVファイルをModeler
画面上にドラッグすることでノードを作成
することができます。
【2】
データを表示させるための「テーブル」
ノードは、画面下部分のノードパレットと
呼ばれる領域からドラッグして作成します。
二つのノードを配置したら、CSV取り込みノードをマウスの中央ボ
タンでクリックします。
こうすると青い矢印が作成できますので、中央ボタンをクリックした
まま「テーブル」ノードまで矢印を繋げます。そしてテーブルをダブ
ルクリックして実行するとCSVファイルが全件表示されます。

ここまでで、CSVファイルを取り込んで表示させるだけ
のシンプルなストリームを作成することができました。
次に、ノードの設定方法についてご説明します。

CSV取り込みノード（正確には
「固定長ファイル」ノード）を
ダブルクリックすると右のような
画面を開くことができます。
CSVファイルの中身を確認するだけであれば細かな設定は必要ありません
が、場合によってはここで様々な変更を行います。
たとえば、CSVの区切りは、デフォルトでは「,」となっていますが、変更
する場合は、「フィールド区切り文字」のチェック箇所を変えます。

次は…
簡単な集計をしてみましょう

データ集計において最も基本的なノードともいえる「レコード集計」ノード
についてご説明します。
前回使用したものと同一のサンプルデータを使用します。
こちらは通販サイトにおける、特定商品の購買や閲覧の有無、これまでの購
買単価の平均値などを、会員ごとに示したデータとなっています。
（仮想のデータです）

CSVファイルの取り込みで作成したストリームに
「レコード集計」ノードを下記のように追加します。
ダブルクリックして設定画面へ

「レコード集計」ノードをダブルクリックして編集します。
今回は「キーフィールド」と「集計フィールド」を下記のように
設定します。
（解説と実行結果は次ページです）

この例では、「商品A購買有無」というフラグ
変数を「キーフィールド」にしています。
（フラグ変数というのは、1が該当、
0が非該当を表す、2値の変数です）
そのため、商品Aの購買がある人とない人に
別れて集計されます。
「キーフィールド」というのは、テーブル内のレコードを一意に識別するためのフィール
ド（変数）のことです。
上の例では、「商品A購買有無」が1のレコードと0のレコードに分けて集計を行っており
「商品A購買有無」という「キーフィールド」でレコードが一意に定まっています。
「集計フィールド」は集計対象のフィールドのことです。上の例では「集計フィールド」
に、ユーザー一人一人の「購買の平均単価」を示す変数を指定しているので
その変数について、商品Aの購買があるグループ(1)、ないグループ(0)で平均を取ったも
のが「購買の平均単価_Mean」として表示されます。
「Record_Count」は、商品Aについての購買有無それぞれのレコード数を示します。

次は…
複数のデータを結合してみましょう

「レコード結合」ノードは、２つ以上のデータを特定のフィールド(変数)をキーにして結合
するときに使います。
下記の２つのCSVデータを例にしてご説明します。
これらは商品ごとの値段のデータ(price.csv)と発売年のデータ(year.csv)を想定しています。

ノードを右のように配置します。
右は、「レコード結合」ノードの設定画面です。
結合の方法を下記4種類の中から選択します。
①内部結合
②完全外部結合
③部分外部結合
④逆結合
次ページ以降で、これらの結合について解説します。
ダブルクリックして設定画面へ

①内部結合
内部結合は、両方のCSVで、結合キー(ID)が一致する
レコードだけを取得する結合方法です。
この場合、右のように出力されます。
値段は、元のcsvには下記4商品についてレコードが
存在しました。
【price.csv:1,2,3,5】
一方、発売年については、下記３商品について
レコードが存在しました。
【year.csv :1,2,4】
内部結合では、両方に共通してIDが存在するレコード
を取得しますので、下記２つが出力されます。
【内部結合後→1,2】

②完全外部結合
内部結合での結果に加えて、どちらかのCSVにしか
存在しないレコードも取得するのが完全外部結合です。
完全外部結合では右のようになります。
元の各csvファイルのIDは下記です。
結合後のIDは下記となります。
【完全外部結合後→1,2,3,4,5】
IDの3～5は片方のcsvにしか存在しないため、取得で
きないデータ(欠損値)が発生します。
Modeler上では、欠損値は「$null$」と表示されます。

③部分外部結合
選択したCSVのレコードをすべて取得す
るのが、部分外部結合です。
部分外部結合では、右のような選択画面が
表示されます。
price.csvを選択すると、price.csvに含ま
れるすべてのレコードが取得されます。
この場合、year.csvにもIDが存在するレ
コードには、yearの値が入り、それ以外は
欠損値となります。
【部分外部結合後→1,2,3,5】

④逆結合
逆結合では、メインのCSVにのみ存在す
るレコードが取得されます。
メインのCSVは、「入力」タブで確認で
きます。
最初に「レコード結合」ノードにつながっ
た方がメインとなりますが、この画面の順
序を変えることで変更することもできます。
【逆結合後→3,5】

本スライドで使用しているサンプルデータと
ストリームファイルは、「コグラフ公式テクニカルWeb」から
ダウンロードできます。
「コグラフ公式テクニカルWeb」には、本スライドに
記載しきれなかった情報もたくさんありますので是非ご覧ください。
http://www.co-graph.net/
本スライドは以上となります。
ご覧頂き、ありがとうございました。

[コグラフ]spss modelerによるデータ加工入門

More Related Content

More from Co-graph Inc.

[コグラフ]spss modelerによるデータ加工入門