Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
クラスター分析の基礎と総合通販会社での活用例 
~ビッグデータ時代にクラスター分析はどう変わるか~ 
2014年12月11日(木) 
山川義介 
株式会社ALBERT 代表取締役会長 
明治大学大学院グローバルビジネス研究科兼任講師 
関東学院...
(C)株式会社ALBERT 
目次 
1 
1.はじめに 
2.クラスター分析概要 
3.階層クラスター分析 
4.非階層クラスター分析 
5.クラスター分析の課題 
6.総合通販会社での活用例
(C)株式会社ALBERT 2 
自己紹介 
1981年横浜国立大学工学部材料化学科卒業(ナイロンの光化学反応機構の分析) 
1981年TDK株式会社入社 
磁気テープ研究部~記録メディア事業部(8ミリビデオ、S-VHSビデオ開発) 
1989...
(C)株式会社ALBERT 
著作のご紹介 
3 
出版社:東京図書 
ISBN-10:4489021712 
ISBN-13:978-4489021718 
発売日:2014/01/09
(C)株式会社ALBERT 
ビッグデータとは 
3V=Volume/Variety/Velocity 
4V=Volume/Variety/Velocity/Veracity 
4V=Volume/Variety/Velocity/Value...
(C)株式会社ALBERT 5 
トーマス・Hダベンポート氏は2014年 に発刊した「データ・アナリティクス 3.0」の中で、『「Venality(金次第)」 も加わり「6V」になる』と(おそらく多 少の揶揄をこめて)予想している。 
さらに彼...
(C)株式会社ALBERT 
6 
ALBERTがご提供しているマーケティングプラットフォーム
(C)株式会社ALBERT 
7 
1.はじめに 
2.クラスター分析概要 
3.階層クラスター分析 
4.非階層クラスター分析 
5.クラスター分析の課題 
6.総合通販会社での活用例
(C)株式会社ALBERT 
クラスター(cluster)とは、英語で「房」「集団」「群れ」のことで、 似たものがたくさん集まっている様子を表します。 
クラスター分析とは、異なる性質のものが混ざり合った集団から、互いに 似た性質を持つものを集...
(C)株式会社ALBERT 
クラスター分析の迷路 
①計算法のバリエーションが多すぎる 
→ともかくメジャーな解法に従う 
②最適クラスターを決める基準がない 
→クロス集計で決着をつける 
③どうやったらクラスターにアクセスできのかわからな...
(C)株式会社ALBERT 
クラスター分析を始めるときに決めなくてはならないことは、一般的に は以下の4つで、それぞれ、どれを選択するかがポイントになります。 
1)グループ分けの対象 
サンプルを分けるのか、変数を分けるのか。 
2)分類の...
(C)株式会社ALBERT 11 
1)グループ分けの対象 
どちらを分けるのか? 
人なのか商品なのか?
(C)株式会社ALBERT 12 
2)分類の形式 
クラスター分析 
階層クラスター分析 
非階層クラスター分析
(C)株式会社ALBERT 
クラスター分析は、「似たもの集めの手法」ですから、似ているものを集 める必要があります。「類似度」と似ていることばに「距離」があります。 類似度と距離の関係は、 
似ている=類似度が高い=距離が近い(小さい) 
似...
(C)株式会社ALBERT 
距離の公理 
(1)距離はマイナスにはならない 
(2)同一点であれば距離はゼロ 
(3)2つの距離はどちらから測っても同じ 
(4)三角形の2辺の距離の合計は、もう1辺の距離より大きい 
この距離の公理を満たす定...
(C)株式会社ALBERT 
(1)ユークリッド距離(平面ならピタゴラスの定理) 
日常で用いる距離で、もっとも一般的なものです。平面なら2点の座標が求まればピタゴ ラスの定理で表せます。これをn次元空間に拡張したものが、以下の式で表されます。...
(C)株式会社ALBERT 
16 
通常のユークリッド距離は式からわかるとおり、各データの性質の差の2乗和の 平方根です。よって、簡単に言えばこの距離は、各性質の単位を無視していると いうことになります。例えば、長さの差3m(メートル)と気温...
(C)株式会社ALBERT 
17 
(3)マハラノビス距離 
変数同士に相関があるとき用いられます。相関が強い方向の距離は実際の距離よりも相対的 に短くするという考え方です。下図では、ユークリッド距離では、AX=APとなりますが、 
マハラノ...
(C)株式会社ALBERT 
18 
(4)マンハッタン距離(市街化距離) 
マンハッタンや京都のような碁盤の目の様な街を移動す る時の距離であり、どこを通っても最短距離は等しくな ります。例えば、地点Pから地点Qに行く時には最低で も10ブロ...
(C)株式会社ALBERT 
各距離について、原点から等距離にあ る点を結ぶと右図のように表せます。 
(6)ミンコフスキー距離 
ユークリッド距離を一般化したもので、非常に 離れた距離の重みを増やしたり、減らしたりで きます。a=b=1がマン...
(C)株式会社ALBERT 
20 
n次元ベクトルの向きの類似性を表す値で、cosθを用います。ベクトルの向きが一致してい る時、最大値の1をとり、直交ならば0、向きが逆ならば最小値のー1をとります。具体的 な値としては、ベクトルX,Yの内積...
(C)株式会社ALBERT 21 
■ベクトルの内積 
ベクトルとは大きさと向きを兼ね備えた量です。内積は以下のように表します。 
60° 푦 
| 
=2 
| 푥 
| 
=3 
| 
例えば右図のように、60°の方向の大きさが3と2のベク...
(C)株式会社ALBERT 22 
■n次元ベクトルのcos類似度計算方法(1/0データの場合) 
n次元ベクトルの類似度 
P1 P2 P3 P4 P5 
s1 1 1 0 1 1 
s2 1 0 0 0 1 
1の数=4 
1の数=2 
s...
(C)株式会社ALBERT 
23 
n次元ベクトルの類似度 
(2)ピアソンの相関係数 
相関係数푅= [푥と푦の共分散] 푥の標準偏差[푦の標準偏差] 1 푛 푖=1 푛 (푥푖− 푥)21 푛 푖=1 푛 (푥푖− 푥)(푦푖− 푦) 1...
(C)株式会社ALBERT 
24 
n次元ベクトルの類似度 
(2)ピアソンの相関係数 
相関係数푅= [푥と푦の共分散] 푥の標準偏差[푦の標準偏差] 1 푛 푖=1 푛 (푥푖− 푥)21 푛 푖=1 푛 (푥푖− 푥)(푦푖− 푦) 1...
(C)株式会社ALBERT 
分散と標準偏差の復習 
X1~X6まで6つのデータがあった時の平均、分散、標準偏差の考え方 
分散は正方形の面積の平均、標準偏差は平均面積の1辺の長さ 
25 
平均 
X1 
X2 
X3 
X4 
X5 
X6...
(C)株式会社ALBERT 
共分散を理解する 
共分散とは、Xの平均との差×Yの平均との差(長方形の面積)の合計を 
サンプル数で割ったもの。 
ここの面積は 
マイナスと考える 
ここの面積は 
マイナスと考える 
X Y 
s1 10 1...
(C)株式会社ALBERT 27 
上記2つの類似度は、ー1から1の値をとりますので、距離に変換する場合は、 
距離=1ー類似度 
等を用います。 
その他、類似度を距離に変換する場合、expを取ることもあります。 
距離=exp(-類似度) ...
(C)株式会社ALBERT 
28 
1.はじめに 
2.クラスター分析概要 
3.階層クラスター分析 
4.非階層クラスター分析 
5.クラスター分析の課題 
6.総合通販会社での活用例
(C)株式会社ALBERT 
29 
階層クラスター分析とは、最も似ている組合せから順番にまとまり(クラスター) にしていく方法で、途中過程が階層のように表せ、最終的に下図のような樹形図 (テンドログラム)ができます。 
階層クラスター分析とは
(C)株式会社ALBERT 
30 
・2つのクラスターP,Qを結合したと仮定したとき、それにより 移動したクラスターの重心とクラスター内の各サンプルとの 距離の2乗和,L(P∪Q)と、元々の2つのクラスター内での重心 とそれぞれのサンプルとの...
(C)株式会社ALBERT 
31 
・2つのクラスターのサンプル同士で最も小さいサ ンプル間距離をクラスター間の距離とする手法。 
→鎖効果により、クラスターが帯状になってしまい、 分類感度が低い。計算量が少ない。 
(3)最短距離法 
・最...
(C)株式会社ALBERT 
32 
階層クラスター分析の長所と短所 
階層クラスター分析は、近いものから順番にくくるという方法をとるので、あらかじめクラスター数を決 める必要がなく、最大の長所です。ただ分類するだけでなく、結果として出力される...
(C)株式会社ALBERT 
県名人口(人) 
降雪量 
(cm) 
漁獲量 
(人口10 
万人当た 
りの収穫 
トン) 
畜産農家 
(人口10 
万人当た 
りの軒数) 
神社(社) 
Jリー 
ガー出身 
(10万人 
あたり 
人)...
(C)株式会社ALBERT 
34 
都道府県の特徴を用いた階層クラスター分析結果 
平均ユークリッド距離 
cos距離 
マハラノビス距離 
ウォード法 
群平均法
(C)株式会社ALBERT 35 
平均ユークリッド距離、ウォード法の結果(例)
(C)株式会社ALBERT 36 
平均ユークリッド距離、ウォード法の結果(例)
(C)株式会社ALBERT 
37 
1.はじめに 
2.クラスター分析概要 
3.階層クラスター分析 
4.非階層クラスター分析 
5.クラスター分析の課題 
6.総合通販会社での活用例
(C)株式会社ALBERT 
38 
非階層クラスター分析とは 
非階層クラスター分析とは、異なる性質のものが混ざり合った集団から、互いに似た性質を持 つものを集め、クラスターを作る方法の1つですが、階層クラスター分析と異なり、階層的な 構造を...
(C)株式会社ALBERT 
39 
1.はじめに 
2.クラスター分析概要 
3.階層クラスター分析 
4.非階層クラスター分析 
5.クラスター分析の課題 
6.総合通販会社での活用例
(C)株式会社ALBERT 
40 
5-1よいクラスターとは何か?
(C)株式会社ALBERT 
41 
評価基準 
内容 
実質性 
各グループが十分大きく、かつ利益に繋がる 
(グループが小さかったり儲けが少なければ施策を出すコストの方が大きくなる) 
到達可能性 
各顧客に対して、観測データから各グループ...
(C)株式会社ALBERT 
42 
クラスター数自動決定法(参考) 
1.Jain-Dubes法 
2.x-means法 
3.Upper Tail法 
4.その他 
Jain, A.K. and Dubes, R.C. (1988): Al...
(C)株式会社ALBERT 
43 
5-2k-means法の初期値依存問題
(C)株式会社ALBERT 
k-means法の初期値依存について 
k-means法の1つの短所として、初期値(初期に選択される「核」となるk個のサ ンプル)依存性があります。下図の3つのクラスターは、初期値を変えて、重心が 変化しなくなるま...
(C)株式会社ALBERT 
45 
k-means法の初期値依存問題の解決策(参考) 
1.メタヒューリスティックな方法 
(simulated annealingや遺伝的アルゴリズム) 
2.k-means++法 
3.スペクトラルクラスタ...
(C)株式会社ALBERT 
46 
5-3k-means法の距離問題
(C)株式会社ALBERT 
A 
B 
両方とも5個買っている人同士 
ユークリッド距離 
0 
0 
(1-COS)距離 
47 
ユークリッド距離とCOS距離の違い 
0 
5 
1 
1 
5
(C)株式会社ALBERT 
A 
B 
Aを5個買っている人とBを5個買っている人 
ユークリッド距離 
7.07 
1 
(1-COS)距離 
48 
ユークリッド距離とCOS距離の違い 
0 
5 
1 
1 
5
(C)株式会社ALBERT 
A 
B 
Aを1個しか買っていない人と5個買っている人 
ユークリッド距離 
4.00 
0 
(1-COS)距離 
49 
0 
5 
1 
1 
5 
ユークリッド距離とCOS距離の違い
(C)株式会社ALBERT 
A 
B 
AもBも1個ずつ買っている人とAだけ5個買っている人 
ユークリッド距離 
4.12 
0.293 
(1-COS)距離 
50 
0 
5 
1 
1 
5 
ユークリッド距離とCOS距離の違い
(C)株式会社ALBERT 
A 
B 
AもBも1個ずつ買っている人と両方5個買っている人 
(1-COS)距離 
ユークリッド距離 
5.66 
0 
51 
0 
5 
1 
1 
5 
ユークリッド距離とCOS距離の違い
(C)株式会社ALBERT 52 
従来の距離計算への疑問 
1と0を入れ替えただけの購買パターン 
ユークリッド距離では同じ! 
casePP1P2P3P4P5P6P7P8P9P10s10001111111(1-cos)距離0.118s210...
(C)株式会社ALBERT 53 
ユークリッド距離によるクラスタリング 
0 
空間が均等に分割される傾向 
A 
B 
C
(C)株式会社ALBERT 54 
cos距離によるクラスタリング 
0 
空間が放射線上に分割される傾向 
A 
B 
C
(C)株式会社ALBERT 
COS距離、相関係数の妥当性 
55 
非類似度パラメータ0.50 
類似度パラメータ0.50 
caseA P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 
s1 1 0 0 0 0 0 0 0 0...
(C)株式会社ALBERT 56 
距離の公理への疑問
(C)株式会社ALBERT 57 
ALBERT距離によるクラスタリング 
軸や平面付近とそれ以外に分割される傾向
(C)株式会社ALBERT 
58 
5-4分析ツールの対応問題
(C)株式会社ALBERT 59 
ユーク 
リッド 
平方 
ユーク 
リッド 
マン 
ハッタ 
ン 
マハラ 
ノビス 
コサイ 
ン 
相関係 
数 
その他1 その他2 
R フリー○ ○ ○ 非中心化相関係数 
SAS SAS In...
(C)株式会社ALBERT 60 
ユーク 
リッド 
マンハッ 
タン 
コサイン 
ダイナ 
ミック 
R フリー○ ○ 
SAS SAS Institute Japan ○ 
SPSS IBM ○ 
StatWorksV5 日科技研○ 
...
(C)株式会社ALBERT 
61 
1.はじめに 
2.クラスター分析概要 
3.階層クラスター分析 
4.非階層クラスター分析 
5.クラスター分析の課題 
6.総合通販会社での活用例
(C)株式会社ALBERT 
62 
6-1購買データを扱う上での注意点
(C)株式会社ALBERT 
アンケートデータのイメージ 
63 
購買データを元にクラスター分析を行う上での注意点
(C)株式会社ALBERT 
スパース(疎)な購買データのイメージ 
64 
購買データを元にクラスター分析を行う上での注意点 
sparse(疎、まばら)
(C)株式会社ALBERT 
カテゴリレベルの分析が極めて重要 
~なぜパンパースとアサヒではなくおむつとビールなのか~ 
パンパースコットンケアウルト ラジャンボS 104枚パンパース 
アサヒスーパードライ 
350ml×24缶 
ASIN...
(C)株式会社ALBERT 
CTB分析の導入 
Category 
Taste 
Brand 
色、模様、サイズ 
ブランド、キャラクター 
大分類、小分類 
「カテゴリ」に加え、同じ上位概念である「テイスト」「ブランド」の分析により顧客の理...
(C)株式会社ALBERT 
67 
6-2大手通販会社での活用例 
(k-means法と階層クラスター分析) 
内容非公開
(C)株式会社ALBERT 
68 
6-3大手通販会社での活用例 
(RFM分析への応用) 
内容一部非公開
(C)株式会社ALBERT 69 
RFMの3次元度数分布 
ランク別の所属人数は優良顧客と1回購入顧客の2極化
(C)株式会社ALBERT 
ロイヤルカスタマー 
70 
1 
2 
3 
7 
5 
8 
4 
6 
RFM分析におけるk-means法 
RFMデータから8つのクラスターに分けた
(C)株式会社ALBERT 
株式会社ALBERTについて 
会社概要 
高度なマーケティングソリューションを提供するためのコアコンピタンス である『分析力』は、アナリティクス領域における、「マーケティングリ サーチ」「多変量解析」「データマイ...
(C)株式会社ALBERT 72 
y_yamakawa@mcx.co.jp 
お問い合わせは以下までお気軽にどうぞ! 
山川義介 
株式会社ALBERT 代表取締役会長
Upcoming SlideShare
Loading in …5
×

データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』

10,793 views

Published on

http://eventdots.jp/event/238419

データサイエンティスト協会 木曜勉強会 #04 講演:『クラスター分析の基礎と総合通販会社での活用例
〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』

Published in: Data & Analytics
  • Be the first to comment

データサイエンティスト協会 木曜勉強会 #04 『クラスター分析の基礎と総合通販会社での活用例 〜 ビッグデータ時代にクラスター分析はどう変わるか 〜』

  1. 1. クラスター分析の基礎と総合通販会社での活用例 ~ビッグデータ時代にクラスター分析はどう変わるか~ 2014年12月11日(木) 山川義介 株式会社ALBERT 代表取締役会長 明治大学大学院グローバルビジネス研究科兼任講師 関東学院大学人間環境研究所客員研究員 データサイエンティスト協会木曜勉強会#04
  2. 2. (C)株式会社ALBERT 目次 1 1.はじめに 2.クラスター分析概要 3.階層クラスター分析 4.非階層クラスター分析 5.クラスター分析の課題 6.総合通販会社での活用例
  3. 3. (C)株式会社ALBERT 2 自己紹介 1981年横浜国立大学工学部材料化学科卒業(ナイロンの光化学反応機構の分析) 1981年TDK株式会社入社 磁気テープ研究部~記録メディア事業部(8ミリビデオ、S-VHSビデオ開発) 1989年商品企画課(カセットテープ、ミニディスク[MD]) 1992年株式会社マルマン入社 常務取締役家電事業部長兼マーケティング部長 1995年株式会社エムアンドシー設立 インターネット通販 インターネットリサーチシステム構築 2000年株式会社インタースコープ設立 インターネットリサーチ&マーケティングコンサルティング 2005年株式会社ALBERT設立 レコメンデーションの専門企業(レコメンドエンジン、CRMソリューション) 詳細はWikipediaをご参照ください。
  4. 4. (C)株式会社ALBERT 著作のご紹介 3 出版社:東京図書 ISBN-10:4489021712 ISBN-13:978-4489021718 発売日:2014/01/09
  5. 5. (C)株式会社ALBERT ビッグデータとは 3V=Volume/Variety/Velocity 4V=Volume/Variety/Velocity/Veracity 4V=Volume/Variety/Velocity/Value Volume(容量の大きさ) ビッグデータの第一の特徴は、その名前の通り容量が大きいことです。企業に限らず、情報技術の進化により、黙っていてもどんどん データが集まるようになり、データ量はテラバイトからペタバイトオーダーにもなっています。データ量が大きいことだけがビッグ データの特徴だと思われがちですが、他にも以下のようなポイントがあります。 Variety(多様性、種類) ビッグデータは、通常表計算などで扱っているように、数値化され関連づけをされたデータ(構造化データ)であるとは限りません。 テキスト、音声、画像、動画などのさまざまな構造化されていないデータ(非構造化データ)もあり、これらのデータをテキストマイ ニングや音声、画像解析などを行ない構造化し、ビジネスに活用する動きが広まっています。 Velocity(スピード、頻度) サーバーのアクセスログや、東京ゲートブリッジ橋梁モニタリングシステムなど、ものすごい頻度、スピードでインターネット上やセ ンサーからデータが生成され、取得、蓄積されています。変化の著しい現代社会では、これらのデータをリアルタイムに処理し、対応 することが求められています。 Veracity(正確さ) 従来は、サンプリングによって一部のデータで全体を推測する方法が主流でした。それに対し、ビッグデータは全てのデータを取得す ることも不可能ではないので、正確であり推測による曖昧さや不正確さなどを排除して、本当に信頼できるデータによる意思決定が可 能です。 Value(価値) ビッグデータは、容量の大きさや多様性、スピードに価値があるのではありません。得られたデータを分析し有用な知識や知恵を導出 し、モデル構築、検証し、課題解決をすることが本質的なビッグデータの価値です。 4 ビッグデータの明確な定義はない!
  6. 6. (C)株式会社ALBERT 5 トーマス・Hダベンポート氏は2014年 に発刊した「データ・アナリティクス 3.0」の中で、『「Venality(金次第)」 も加わり「6V」になる』と(おそらく多 少の揶揄をこめて)予想している。 さらに彼は、『このように定義上の問 題があるため、私は(そして他の専門家た ちも)この不幸な言葉が早晩消え去るだろ うと予測している。だからと言って、 「ビッグデータと呼ばれている現象」がど こかに消えるわけではない。そして多種多 様の情報源から大量のデータが流れ込むと いう、ここ10年ほどの状況について何ら かの言葉を当てはめようとするなら、今の ところ「ビッグデータ」以上の言葉は見当 たらない』と結論づけている。 「ビッグデータ」という言葉はバズワード? 2008年発売 2011年発売 2014年発売
  7. 7. (C)株式会社ALBERT 6 ALBERTがご提供しているマーケティングプラットフォーム
  8. 8. (C)株式会社ALBERT 7 1.はじめに 2.クラスター分析概要 3.階層クラスター分析 4.非階層クラスター分析 5.クラスター分析の課題 6.総合通販会社での活用例
  9. 9. (C)株式会社ALBERT クラスター(cluster)とは、英語で「房」「集団」「群れ」のことで、 似たものがたくさん集まっている様子を表します。 クラスター分析とは、異なる性質のものが混ざり合った集団から、互いに 似た性質を持つものを集め、クラスターを作る方法です。 対象となるサンプル(人、行)や変数(項目、列)をいくつかのグループ に分ける、簡単にいえば「似たもの集めの手法」です。 クラスター分析は、あらかじめ分類の基準が決まっておらず、分類のため の外的基準や評価が与えられていない「教師無しの分類法」です。従って、 データを単純に男女別や年代別に分けた塊をクラスターとは呼びません。 クラスター分析概要 8
  10. 10. (C)株式会社ALBERT クラスター分析の迷路 ①計算法のバリエーションが多すぎる →ともかくメジャーな解法に従う ②最適クラスターを決める基準がない →クロス集計で決着をつける ③どうやったらクラスターにアクセスできのかわからない →クラスターとデモグラフィック変数との対応をつける →ビッグデータは全員分析するのでアクセスできる 朝野熙彦(2000)「入門多変量解析の実際第2版」講談社. 9
  11. 11. (C)株式会社ALBERT クラスター分析を始めるときに決めなくてはならないことは、一般的に は以下の4つで、それぞれ、どれを選択するかがポイントになります。 1)グループ分けの対象 サンプルを分けるのか、変数を分けるのか。 2)分類の形式(種類、生成) 階層的方法か非階層的方法か 3)分類に用いる対象間の距離(類似度) ユークリッド距離、マハラノビス距離、コサイン距離・・・ 4)クラスターの合併(生成)方法(クラスター間の距離の測定方法) ウォード法、群平均法、最短距離法、最長距離法・・・ クラスター分析のポイント 10
  12. 12. (C)株式会社ALBERT 11 1)グループ分けの対象 どちらを分けるのか? 人なのか商品なのか?
  13. 13. (C)株式会社ALBERT 12 2)分類の形式 クラスター分析 階層クラスター分析 非階層クラスター分析
  14. 14. (C)株式会社ALBERT クラスター分析は、「似たもの集めの手法」ですから、似ているものを集 める必要があります。「類似度」と似ていることばに「距離」があります。 類似度と距離の関係は、 似ている=類似度が高い=距離が近い(小さい) 似ていない=類似度が低い=距離が遠い(大きい) ということになりますが、クラスター分析では、この(非)類似性を、各 データのもつ性質の差を距離ととらえることで、その大小により類似性を 表現します。データ間の差を用いた距離にはいくつか種類がありますが、 最も優れているというものはなく、そのデータの性質により用いる距離を 選択する必要があります。 3)分類に用いる対象間の距離(類似度) 13
  15. 15. (C)株式会社ALBERT 距離の公理 (1)距離はマイナスにはならない (2)同一点であれば距離はゼロ (3)2つの距離はどちらから測っても同じ (4)三角形の2辺の距離の合計は、もう1辺の距離より大きい この距離の公理を満たす定義は、無限にあります。我々が最もよく使う距 離はユークリッド距離といわれるもので、ピタゴラスの定理で求められる ような直線距離を指します。 距離とは何か 14
  16. 16. (C)株式会社ALBERT (1)ユークリッド距離(平面ならピタゴラスの定理) 日常で用いる距離で、もっとも一般的なものです。平面なら2点の座標が求まればピタゴ ラスの定理で表せます。これをn次元空間に拡張したものが、以下の式で表されます。 n次元ベクトルの距離 (2)標準化(平均)ユークリッド距離 各データを標準偏差で割って計算したもので、以下の式で表されます。 15
  17. 17. (C)株式会社ALBERT 16 通常のユークリッド距離は式からわかるとおり、各データの性質の差の2乗和の 平方根です。よって、簡単に言えばこの距離は、各性質の単位を無視していると いうことになります。例えば、長さの差3m(メートル)と気温の差3℃が同等の 割合で性質の差(クラスターの割り当て)に影響すると考える、ということです。 それに対して、標準化ユークリッド距離はその逆で、標準化を行なうことでデー タの持つ性質の差が性質ごとに開きがないように配慮しているわけです。 標準化ユークリッド距離は各性質の差を標準化していますが、標準化ユークリッ ド距離のほうがユークリッド距離よりも優れているということではありません。 なぜなら、標準化するということは、性質ごとの影響力、重みをなくすというこ とであり、本来影響力がある性質の差も、ほとんど影響のない性質の差も等しく 扱うということになってしまうからです。 クラスター分析における距離の標準化の意味 n次元ベクトルの距離 3m 3℃
  18. 18. (C)株式会社ALBERT 17 (3)マハラノビス距離 変数同士に相関があるとき用いられます。相関が強い方向の距離は実際の距離よりも相対的 に短くするという考え方です。下図では、ユークリッド距離では、AX=APとなりますが、 マハラノビス距離ではそうではなく、AX≠ AP=AQ=AR=ASということになります。 n次元ベクトルの距離
  19. 19. (C)株式会社ALBERT 18 (4)マンハッタン距離(市街化距離) マンハッタンや京都のような碁盤の目の様な街を移動す る時の距離であり、どこを通っても最短距離は等しくな ります。例えば、地点Pから地点Qに行く時には最低で も10ブロックを通過しなくてはなりません。2乗してい ないので外れ値の影響を抑えることができます。将棋で いえば、飛車の動いた距離ということになります。 (5)チェビシェフ距離 ユークリッド距離が、原点を中心に円状に広がっていく のにたいし、チェビシェフの距離は、斜めも同じ距離と 考えるので、正方形上に広がってく距離です。将棋でい くつ動かすかを考えたとき、マンハッタン距離が飛車だ けだとすると、チェビシェフの距離は飛車も角も当ては まるといったイメージでしょうか。同じ次元の変数を、 別の次元の変数とみなしたい場合に使います。 n次元ベクトルの距離
  20. 20. (C)株式会社ALBERT 各距離について、原点から等距離にあ る点を結ぶと右図のように表せます。 (6)ミンコフスキー距離 ユークリッド距離を一般化したもので、非常に 離れた距離の重みを増やしたり、減らしたりで きます。a=b=1がマンハッタン距離、a=b=2 がユークリッド距離、a=b=∞がチェビシェフ 距離に一致します。 n次元ベクトルの距離 19
  21. 21. (C)株式会社ALBERT 20 n次元ベクトルの向きの類似性を表す値で、cosθを用います。ベクトルの向きが一致してい る時、最大値の1をとり、直交ならば0、向きが逆ならば最小値のー1をとります。具体的 な値としては、ベクトルX,Yの内積X・Yをそれぞれの長さ|X|,|Y|で割ったものです。距離 という基準を用いずに、n次元空間でのベクトルの類似性を求めることができます。購買 データの分析には、このコサイン類似度を用いるケースがよくあります。 (1)コサイン類似度 n次元ベクトルの類似度 푥∙ 푦 푥| 푦| = 푥 푥 ∙ 푦 | 푦| 푖=1|푣| 푥푖 2 푖=1|푣| 푦푖 2 푖=1|푣| 푥푖푦푖 =
  22. 22. (C)株式会社ALBERT 21 ■ベクトルの内積 ベクトルとは大きさと向きを兼ね備えた量です。内積は以下のように表します。 60° 푦 | =2 | 푥 | =3 | 例えば右図のように、60°の方向の大きさが3と2のベクト ルがあった場合、ベクトルの内積は以下のようになります。 푥・ 푦 ベクトルの内積= = | | 푥 | | 푦 ・ cos휃 3×2×cos60°=6×(1/2)=3 ここでcos類似度は、ベクトルの内積をそれぞれの大きさで割っていますから、 3/(3×2)=0.5にとなり、長さが1のベクトルになるので、cosθと一致します。 n次元ベクトルの類似度
  23. 23. (C)株式会社ALBERT 22 ■n次元ベクトルのcos類似度計算方法(1/0データの場合) n次元ベクトルの類似度 P1 P2 P3 P4 P5 s1 1 1 0 1 1 s2 1 0 0 0 1 1の数=4 1の数=2 s1、s2が両方1である数=2 cos類似度= 2 4 × 2 = 2 1 =0.71 P1 P2 P3 P4 P5 s1 1 1 0 1 0 s2 1 0 1 0 1 1の数=3 1の数=3 s1、s2が両方1である数=1 cos類似度= 1 3 × 3 = 1 =0.33 3 cos類似度は文章の類似度を計算する場合に用いられますが、購買履歴データで、購入した かしないかのデータとも相性がよいことが知られています。
  24. 24. (C)株式会社ALBERT 23 n次元ベクトルの類似度 (2)ピアソンの相関係数 相関係数푅= [푥と푦の共分散] 푥の標準偏差[푦の標準偏差] 1 푛 푖=1 푛 (푥푖− 푥)21 푛 푖=1 푛 (푥푖− 푥)(푦푖− 푦) 1 푛 푖=1 푛 (푦푖− 푦)2 = 푖=1 푛 (푥푖− 푥)2 푖=1 푛 (푦푖− 푦)2 =
  25. 25. (C)株式会社ALBERT 24 n次元ベクトルの類似度 (2)ピアソンの相関係数 相関係数푅= [푥と푦の共分散] 푥の標準偏差[푦の標準偏差] 1 푛 푖=1 푛 (푥푖− 푥)21 푛 푖=1 푛 (푥푖− 푥)(푦푖− 푦) 1 푛 푖=1 푛 (푦푖− 푦)2 = 푖=1 푛 (푥푖− 푥)2 푖=1 푛 (푦푖− 푦)2 =
  26. 26. (C)株式会社ALBERT 分散と標準偏差の復習 X1~X6まで6つのデータがあった時の平均、分散、標準偏差の考え方 分散は正方形の面積の平均、標準偏差は平均面積の1辺の長さ 25 平均 X1 X2 X3 X4 X5 X6 X 面積=X1− X2
  27. 27. (C)株式会社ALBERT 共分散を理解する 共分散とは、Xの平均との差×Yの平均との差(長方形の面積)の合計を サンプル数で割ったもの。 ここの面積は マイナスと考える ここの面積は マイナスと考える X Y s1 10 10 s2 4 5 s3 2 5 s4 2 4 s5 8 4 s6 9 6 s7 7 6 s8 5 2 s9 1 1 s10 3 2 s11 4 7 s12 6 7 s13 8 9 s14 11 8 s15 6 4 平均5.7 5.3 26
  28. 28. (C)株式会社ALBERT 27 上記2つの類似度は、ー1から1の値をとりますので、距離に変換する場合は、 距離=1ー類似度 等を用います。 その他、類似度を距離に変換する場合、expを取ることもあります。 距離=exp(-類似度) 類似度を距離に変換する方法
  29. 29. (C)株式会社ALBERT 28 1.はじめに 2.クラスター分析概要 3.階層クラスター分析 4.非階層クラスター分析 5.クラスター分析の課題 6.総合通販会社での活用例
  30. 30. (C)株式会社ALBERT 29 階層クラスター分析とは、最も似ている組合せから順番にまとまり(クラスター) にしていく方法で、途中過程が階層のように表せ、最終的に下図のような樹形図 (テンドログラム)ができます。 階層クラスター分析とは
  31. 31. (C)株式会社ALBERT 30 ・2つのクラスターP,Qを結合したと仮定したとき、それにより 移動したクラスターの重心とクラスター内の各サンプルとの 距離の2乗和,L(P∪Q)と、元々の2つのクラスター内での重心 とそれぞれのサンプルとの距離の2乗和,L(P),L(Q)の差 Δ= L(P∪Q)-L(P)-L(Q) が最小となるようなクラスター同士を結合する手法。 Δの値を情報ロス量という。 →計算量は多いが分類感度がかなり良い。そのため、よく用い られる。 ・各クラスター同士で、全ての組み合わせのサンプル間距離の 平均をクラスター間距離とする手法。 →鎖効果や拡散現象を起こさないため、用いられることが多い。 (1)ウォード法 (2)群平均法 クラスター間距離の測定方法
  32. 32. (C)株式会社ALBERT 31 ・2つのクラスターのサンプル同士で最も小さいサ ンプル間距離をクラスター間の距離とする手法。 →鎖効果により、クラスターが帯状になってしまい、 分類感度が低い。計算量が少ない。 (3)最短距離法 ・最短距離法の逆で各クラスター中、最大のサンプル 間距離をクラスター間距離とする。 →分類感度は高いが、クラスター同士が離れてしまう 拡散現象が生じる。計算量が少ない。 (4)最長距離法 クラスター間距離の測定方法
  33. 33. (C)株式会社ALBERT 32 階層クラスター分析の長所と短所 階層クラスター分析は、近いものから順番にくくるという方法をとるので、あらかじめクラスター数を決 める必要がなく、最大の長所です。ただ分類するだけでなく、結果として出力される樹形図から、分類の 過程でできるクラスターがどのように結合されていくかを一つひとつ確認できるので、クラスター数を後 から決めることができます。例えば、3つに分けようと思えば、縦の線を3本横切るような線を引き、その 線から下に繋がっている要素を1つのクラスターと考えれば、任意のクラスター数に分けることができま す。最小は全体である1クラスタ、最大は要素数(ここでは5)に等しくなります。 左図の場合 ・AとBはかなり似ている ・CとDは似ている ・Eは孤立している ということがわかります。クラスター分割 (樹形図のスライス)は、上から横線を下ろ していきますが、分析は下から上に向かって 進めているので、全体を先に2とか3つに分け る手法ではありません。 階層型クラスターの短所は、分類の対象が非常に多い場合、計算量が多くなり実行が困難になったり、系 統図が巨大になり結果が不明瞭になったりすることです。非常に多くのデータを対象とするクラスター分 析では、次に述べる非階層型クラスター分析を用いるのが一般的です。対象数は数十個以下が目安といわ れています。 4つに分ける 3つに分ける 2つに分ける
  34. 34. (C)株式会社ALBERT 県名人口(人) 降雪量 (cm) 漁獲量 (人口10 万人当た りの収穫 トン) 畜産農家 (人口10 万人当た りの軒数) 神社(社) Jリー ガー出身 (10万人 あたり 人) 温泉数 (軒) 樹園地 ゴルフ場 の施設数 (軒) 北海道5,507,000 597 26,448 54 813 0.50 468 2,970 186 青森県1,379,000 669 17,212 92 889 0.07 294 23,400 19 岩手県1,340,000 272 16,019 582 871 0.29 72 3,770 28 宮城県2,336,000 71 16,383 260 949 0.43 142 1,460 27 秋田県1,096,000 377 1,120 127 1,152 0.27 201 2,520 15 山形県1,179,000 426 699 90 1,751 0.33 147 11,100 14 福島県2,040,000 189 5,055 228 3,073 0.34 196 7,300 54 茨城県2,960,000 16 6,590 32 2,490 1.21 117 7,210 123 栃木県2,006,000 28 64 72 1,921 0.55 277 2,500 135 群馬県2,007,000 24 29 41 1,220 1.04 257 3,730 74 埼玉県7,130,000 22 1 3 2,033 1.00 64 3,410 91 千葉県6,139,000 1 3,164 7 3,194 1.03 149 3,660 156 東京都12,868,000 11 819 0 1,467 0.74 131 1,680 22 神奈川県8,943,000 13 641 1 1,157 0.62 183 4,070 64 新潟県2,378,000 217 1,546 14 4,780 0.33 203 2,590 54 富山県1,095,000 383 4,252 6 2,296 0.81 63 755 20 石川県1,165,000 281 5,695 9 1,898 0.68 109 1,320 37 福井県808,000 286 2,158 7 1,718 0.49 45 782 9 山梨県867,000 29 142 10 1,296 0.91 125 10,700 35 長野県2,159,000 263 99 35 2,474 0.23 729 16,000 91 岐阜県2,092,000 47 80 37 3,285 0.38 93 3,780 88 静岡県3,792,000 0 5,339 6 2,849 2.21 571 29,600 104 愛知県7,418,000 16 1,619 7 3,365 0.22 98 6,050 59 三重県1,870,000 7 10,719 13 854 1.28 100 6,430 71 滋賀県1,405,000 104 56 8 1,447 1.07 25 1,070 35 京都府2,622,000 19 507 5 1,764 0.72 66 3,050 32 大阪府8,801,000 3 233 0 739 0.74 87 2,180 44 兵庫県5,583,000 2 1,790 37 3,862 0.84 196 1,760 158 奈良県1,399,000 8 2 5 1,387 0.78 67 3,740 28 和歌山県1,004,000 2 3,775 8 442 0.59 22 21,900 32 鳥取県591,000 214 9,995 87 826 0.50 54 1,840 20 島根県718,000 89 16,264 254 1,171 0.68 91 1,740 14 岡山県1,942,000 3 1,431 38 1,665 0.97 110 3,900 56 広島県2,863,000 12 4,138 34 2,695 0.84 112 6,320 41 山口県1,455,000 4 3,404 53 752 0.88 135 3,330 43 徳島県789,000 4 3,977 39 1,319 1.13 57 4,370 13 香川県999,000 3 5,042 32 806 0.20 73 3,180 23 愛媛県1,436,000 2 11,869 19 1,257 0.83 117 22,400 17 高知県766,000 1 14,693 34 2,184 0.77 51 3,830 15 福岡県5,053,000 4 2,011 5 3,422 0.57 126 10,200 55 佐賀県852,000 6 11,633 116 1,104 0.23 142 6,050 20 長崎県1,430,000 4 22,588 282 1,325 0.90 122 6,760 18 熊本県1,814,000 2 5,055 217 1,394 1.53 319 16,400 49 大分県1,195,000 2 5,244 184 2,138 0.91 369 4,800 27 宮崎県1,132,000 0 8,999 879 677 0.70 116 4,900 31 鹿児島県1,708,000 4 8,857 811 1,136 1.56 560 14,100 38 沖縄県1,382,000 0 2,425 226 13 0.80 8 2,030 38 都道府県の階層クラスター分析例に用いたデータ 階層クラスター分析を行なう上で、クラス ター間の距離、サンプル間の距離は何を選択 すべきか、これといった規則はありません。 試行錯誤でよりよいクラスターにするには、 どれを選択すべきかを決めているのが現状だ と思います。そこで、右のような都道府県の いくつかの特徴を表すデータを用いて、いく かの距離の組合せによって、結果がどう変わ るかを次ページに示しました。 33
  35. 35. (C)株式会社ALBERT 34 都道府県の特徴を用いた階層クラスター分析結果 平均ユークリッド距離 cos距離 マハラノビス距離 ウォード法 群平均法
  36. 36. (C)株式会社ALBERT 35 平均ユークリッド距離、ウォード法の結果(例)
  37. 37. (C)株式会社ALBERT 36 平均ユークリッド距離、ウォード法の結果(例)
  38. 38. (C)株式会社ALBERT 37 1.はじめに 2.クラスター分析概要 3.階層クラスター分析 4.非階層クラスター分析 5.クラスター分析の課題 6.総合通販会社での活用例
  39. 39. (C)株式会社ALBERT 38 非階層クラスター分析とは 非階層クラスター分析とは、異なる性質のものが混ざり合った集団から、互いに似た性質を持 つものを集め、クラスターを作る方法の1つですが、階層クラスター分析と異なり、階層的な 構造を持たず、あらかじめいくつのクラスターに分けるかを決め、決めた数の塊(排他的部分 集合)にサンプルを分割する方法といえます。 階層クラスター分析と違い、サンプル数が大きいビッグデータを分析するときに適しています。 ただし、あらかじめいくつのクラスターに分けるかは、分析者が決める必要があり、最適クラ スター数を自動的には計算する方法は確立されていません。 サンプル数:100 クラスター数:5 非階層クラスター分析のイメージ サンプル数:100
  40. 40. (C)株式会社ALBERT 39 1.はじめに 2.クラスター分析概要 3.階層クラスター分析 4.非階層クラスター分析 5.クラスター分析の課題 6.総合通販会社での活用例
  41. 41. (C)株式会社ALBERT 40 5-1よいクラスターとは何か?
  42. 42. (C)株式会社ALBERT 41 評価基準 内容 実質性 各グループが十分大きく、かつ利益に繋がる (グループが小さかったり儲けが少なければ施策を出すコストの方が大きくなる) 到達可能性 各顧客に対して、観測データから各グループに割り振れる 識別性 グループ同士が概念上異なっており、施策の反応も異なる 実行可能性 各グループに対して、有効な施策が作れる 安定性 各グループが時間と共に著しく変化をしない (よって、各グループに対して有効なマーケティング戦略を出せる) オッカムの剃刀 各グループに効率的かつ有効な施策を出すため、異なる重要なグループを まとめることなく、かつなるべく少ないグループ数で特定している 理解可能性 意思決定に使うため、各グループの特徴が誰でも理解できる 関連性 各グループが企業の目的と関連している 密集性 グループ内では似ており、別のグループとは似ていない 親和性 グループ化の結果が他の施策の必須条件を満たしている (他の施策と矛盾した施策にならない) クラスターの評価基準 出典:AConciseGuideto Marketing Research (Mooiand Sarstedt)
  43. 43. (C)株式会社ALBERT 42 クラスター数自動決定法(参考) 1.Jain-Dubes法 2.x-means法 3.Upper Tail法 4.その他 Jain, A.K. and Dubes, R.C. (1988): Algorithms for clustering data, Englewood Cliffs,NJ:Prentice-Hall. 石岡恒憲(2006): x-means 法改良の一提案—k-means 法の逐次繰り返しとクラスターの再併合—, 『計算機統計学』, 18(1), 3-13. Mojena, R. (1977): Hierarchical grouping methods and stopping rules: an evaluation,The Computer Journal, 20, 359-363. Hardy, A. (1996): On the number of clusters, computational Statistics and Data Analysis, 23, 83-96. Wolfe, J.H. (1970): Pattern clustering by multivariate mixture analysis. Multivariate Behavioral Res., 5, 329-350. Mojena, R. (1977): Hierarchical grouping methods and stopping rules: an evaluation,TheComputer Journal, 20, 359-363.
  44. 44. (C)株式会社ALBERT 43 5-2k-means法の初期値依存問題
  45. 45. (C)株式会社ALBERT k-means法の初期値依存について k-means法の1つの短所として、初期値(初期に選択される「核」となるk個のサ ンプル)依存性があります。下図の3つのクラスターは、初期値を変えて、重心が 変化しなくなるまで、繰り返し計算した時の結果です。同じデータを距離などを同 じ条件にして計算しても、初期値が異なるだけで、結果が大きく違うことが分かり ます。従って、よいクラスターを得るためには、初期値を変えて何回か分析を実施 し、平均クラスター内距離が最小になる初期値を選択するなど、最適初期値での結 果を採用することが望ましいといえます。 初期値による結果の違い 44
  46. 46. (C)株式会社ALBERT 45 k-means法の初期値依存問題の解決策(参考) 1.メタヒューリスティックな方法 (simulated annealingや遺伝的アルゴリズム) 2.k-means++法 3.スペクトラルクラスタリング Quantum Annealing Hybrid annealing Simulated annealing Kenichi Kurihara, Shu Tanaka, and Seiji Miyashita “Quantum Annealing for Clustering”, UAI2009 David Arthur, ”k-means++: The advantages of careful seeding”, Proc. of the eighteenth annual ACM-SIAM symposium on Discrete algorithm, 1027-1035, 2007. A Tutorial on Spectral Clustering -Ulrike von Luxburg
  47. 47. (C)株式会社ALBERT 46 5-3k-means法の距離問題
  48. 48. (C)株式会社ALBERT A B 両方とも5個買っている人同士 ユークリッド距離 0 0 (1-COS)距離 47 ユークリッド距離とCOS距離の違い 0 5 1 1 5
  49. 49. (C)株式会社ALBERT A B Aを5個買っている人とBを5個買っている人 ユークリッド距離 7.07 1 (1-COS)距離 48 ユークリッド距離とCOS距離の違い 0 5 1 1 5
  50. 50. (C)株式会社ALBERT A B Aを1個しか買っていない人と5個買っている人 ユークリッド距離 4.00 0 (1-COS)距離 49 0 5 1 1 5 ユークリッド距離とCOS距離の違い
  51. 51. (C)株式会社ALBERT A B AもBも1個ずつ買っている人とAだけ5個買っている人 ユークリッド距離 4.12 0.293 (1-COS)距離 50 0 5 1 1 5 ユークリッド距離とCOS距離の違い
  52. 52. (C)株式会社ALBERT A B AもBも1個ずつ買っている人と両方5個買っている人 (1-COS)距離 ユークリッド距離 5.66 0 51 0 5 1 1 5 ユークリッド距離とCOS距離の違い
  53. 53. (C)株式会社ALBERT 52 従来の距離計算への疑問 1と0を入れ替えただけの購買パターン ユークリッド距離では同じ! casePP1P2P3P4P5P6P7P8P9P10s10001111111(1-cos)距離0.118s21011111111ユークリッド距離1.414caseQP1P2P3P4P5P6P7P8P9P10s31110000000(1-cos)距離0.423s40100000000ユークリッド距離1.414
  54. 54. (C)株式会社ALBERT 53 ユークリッド距離によるクラスタリング 0 空間が均等に分割される傾向 A B C
  55. 55. (C)株式会社ALBERT 54 cos距離によるクラスタリング 0 空間が放射線上に分割される傾向 A B C
  56. 56. (C)株式会社ALBERT COS距離、相関係数の妥当性 55 非類似度パラメータ0.50 類似度パラメータ0.50 caseA P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 s1 1 0 0 0 0 0 0 0 0 0 1.000 cos距離 s2 1 0 0 0 0 0 0 0 0 0 1.000 相関係数 caseB P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 s3 5 0 0 0 0 0 0 0 0 0 1.000 cos距離 s4 5 0 0 0 0 0 0 0 0 0 1.000 相関係数 caseC P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 s5 5 5 0 0 0 0 0 0 0 0 1.000 cos距離 s6 5 5 0 0 0 0 0 0 0 0 1.000 相関係数 caseD P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 s7 1 5 1 0 1 0 1 0 0 0 0.345 cos距離 s8 5 1 0 1 0 1 0 1 0 0 0.091 相関係数 caseE P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 s9 1 10 0 0 0 0 0 0 0 0 0.198 cos距離 s10 10 1 0 0 0 0 0 0 0 0 0.089 相関係数 caseD P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 s7 1 5 1 0 1 0 1 0 0 0 0.345 cos距離 s8 5 1 0 1 0 1 0 1 0 0 0.091 相関係数 caseE P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 s9 1 10 0 0 0 0 0 0 0 0 0.198 cos距離 s10 10 1 0 0 0 0 0 0 0 0 0.089 相関係数 caseA、caseB、caseCの類似度は同じなのだろうか? caseD、caseEではcaseDの類似度のほうが高いのだろうか?
  57. 57. (C)株式会社ALBERT 56 距離の公理への疑問
  58. 58. (C)株式会社ALBERT 57 ALBERT距離によるクラスタリング 軸や平面付近とそれ以外に分割される傾向
  59. 59. (C)株式会社ALBERT 58 5-4分析ツールの対応問題
  60. 60. (C)株式会社ALBERT 59 ユーク リッド 平方 ユーク リッド マン ハッタ ン マハラ ノビス コサイ ン 相関係 数 その他1 その他2 R フリー○ ○ ○ 非中心化相関係数 SAS SAS Institute Japan ○ SPSS IBM ○ ○ ○ ○ ○ ミンコフスキーチェビシェフ StatWorksV5 日科技研○ ○ ○ ○ ○ キャンベラ距離指数プレイ・カーティス係数 VMS NTTデータ数理システム○ ○ ○ 平均ユークリッドダイナミック 最短距 離法 最長距 離法 (群) 平均法 ウォー ド法 中心法 メジア ン法 その他1 その他2 R フリー○ ○ ○ ○ ○ 加重群平均加重群メジアン SAS SAS Institute Japan ○ ○ ○ ○ ○ ○ 密度法フレキシブルβ SPSS IBM ○ ○ ○ ○ ○ ○ StatWorksV5 日科技研○ ○ ○ ○ 可変法 VMS NTTデータ数理システム○ ○ ○ ○ ○ ○ 最小全域木 距離、類似度係数 クラスター化法 ソフト名提供元 ソフト名提供元 階層クラスターツール比較 ALBERT調べ
  61. 61. (C)株式会社ALBERT 60 ユーク リッド マンハッ タン コサイン ダイナ ミック R フリー○ ○ SAS SAS Institute Japan ○ SPSS IBM ○ StatWorksV5 日科技研○ VMS NTTデータ数理システム○ ○ ○ ○ ランダム系統配置 ユーザー 指定 ランダム シード固 定 kmeans+ + R フリー○ ○ ○ SAS SAS Institute Japan △ SPSS IBM ○ △ StatWorksV5 日科技研○ ○ ○ VMS NTTデータ数理システム○ ○ ソフト名提供元 距離、類似度係数 ソフト名提供元 初期値指定方法 非階層クラスター(k-means法)ツール比較 ALBERT調べ
  62. 62. (C)株式会社ALBERT 61 1.はじめに 2.クラスター分析概要 3.階層クラスター分析 4.非階層クラスター分析 5.クラスター分析の課題 6.総合通販会社での活用例
  63. 63. (C)株式会社ALBERT 62 6-1購買データを扱う上での注意点
  64. 64. (C)株式会社ALBERT アンケートデータのイメージ 63 購買データを元にクラスター分析を行う上での注意点
  65. 65. (C)株式会社ALBERT スパース(疎)な購買データのイメージ 64 購買データを元にクラスター分析を行う上での注意点 sparse(疎、まばら)
  66. 66. (C)株式会社ALBERT カテゴリレベルの分析が極めて重要 ~なぜパンパースとアサヒではなくおむつとビールなのか~ パンパースコットンケアウルト ラジャンボS 104枚パンパース アサヒスーパードライ 350ml×24缶 ASIN: B001TZAWD0 ASIN: B0015XN55S おむつ ビール つまり、SKU単位の相関よりカテゴリ単位の相関のほうがはるかに パワフルで精緻な購買予測が可能になる。←非常に重要な視点 SKUレベルでは大量のデータが必要となり、すべての商品の相関関係を見いだすことは不可能。 より低いレベルの相関関係を根拠に顧客行動を予測することは難しい。 購買データを元にクラスター分析を行う上での注意点 65
  67. 67. (C)株式会社ALBERT CTB分析の導入 Category Taste Brand 色、模様、サイズ ブランド、キャラクター 大分類、小分類 「カテゴリ」に加え、同じ上位概念である「テイスト」「ブランド」の分析により顧客の理解が深まる。 66
  68. 68. (C)株式会社ALBERT 67 6-2大手通販会社での活用例 (k-means法と階層クラスター分析) 内容非公開
  69. 69. (C)株式会社ALBERT 68 6-3大手通販会社での活用例 (RFM分析への応用) 内容一部非公開
  70. 70. (C)株式会社ALBERT 69 RFMの3次元度数分布 ランク別の所属人数は優良顧客と1回購入顧客の2極化
  71. 71. (C)株式会社ALBERT ロイヤルカスタマー 70 1 2 3 7 5 8 4 6 RFM分析におけるk-means法 RFMデータから8つのクラスターに分けた
  72. 72. (C)株式会社ALBERT 株式会社ALBERTについて 会社概要 高度なマーケティングソリューションを提供するためのコアコンピタンス である『分析力』は、アナリティクス領域における、「マーケティングリ サーチ」「多変量解析」「データマイニング」「テキスト&画像解析」、 エンジニアリング領域における、「大規模データ処理」「ソリューショ ン開発」「プラットフォーム構築」「最適化モデリング」の8つのテクノ ロジーで支えられています。8つのテクノロジーには豊富な実績に裏付け られた、ALBERT独自のアルゴリズムや手法が用いられており、優位性を 確保しています。 事業概要 71 社名株式会社ALBERT 設立2005年7月1日 資本金3億3,900万円 株主デジタル・アドバタイジング・コンソーシアム株式会社、 IVP Incubator, L.P、オリックス・キャピタル株式会社、 株式会社ジャフコ、三生キャピタル株式会社、東洋キャピタル株式会社、 ニュー・フロンティア・パートナーズ株式会社、 SMBCベンチャーキャピタル株式会社、信金キャピタル株式会社、 PE&HR株式会社、大和企業投資株式会社、 株式会社シーエー・モバイル、役員および従業員 役員代表取締役会長山川義介 代表取締役社長上村崇 取締役山口哲央 (デジタル・アドバタイジング・コンソーシアム株式会社 執行役員テクノロジーサービス本部長) 執行役員安達章浩 池内孝啓 木野英明 佐藤めぐみ 平原昭次 監査役谷本篤彦 非常勤監査役江南清司 保月英機 事業内容マーケティングプラットフォーム(smarticA!DMP) ・データマイニングエンジン(レコメンドエンジン) ・キャンペーンマネジメント ・行動ターゲティング広告システム ・統合データウェアハウス(DWH) ・統計解析ソフトウエア ・BIツール アナリティクス・コンサルティング ・分析コンサルティング ・顧客分析/ 商圏分析/ 商品分析/ 広告分析 ・データサイエンティスト養成講座 『分析力をコアとするマーケティング ソリューションカンパニー』
  73. 73. (C)株式会社ALBERT 72 y_yamakawa@mcx.co.jp お問い合わせは以下までお気軽にどうぞ! 山川義介 株式会社ALBERT 代表取締役会長

×