DS Exercise Course 4

データサイエンス概論第二＋演習第一
「距離とクラスタリング」
(5月29日)
九州大学大学院システム情報科学研究院
情報知能工学部門
データサイエンス実践特別講座
備瀬竜馬，Diego Thomas, 末廣大貴

データ間の距離
「どれくらい違うか」を測る

データ解析における「距離」とは？
●データ解析における「距離」
●要するにデータ間の差異（似てない具合）
●距離が小さい2データは「似ている」
●単位がある場合もない場合も
3
𝒙𝒙
𝒚𝒚
𝒛𝒛

距離がわかると何に使えるか？
実は超便利！
●データ間の比較が定量的にできる
●「xとyは全然違う/結構似ている」「xとyは28ぐらい違う」
●「xにとっては，yよりもzのほうが似ている」
●データ集合のグルーピングができる
●似たものとどおしでグループを作る
●データの異常度が測れる
●他に似たデータがたくさんあれば正常，
一つもなければ異常
[Goldstein, Uchida, PLoSONE, 2016]

データ間の距離・類似度：ユークリッド距離
5
地図上の2点 𝒙𝒙 =
𝑥𝑥1
𝑥𝑥2
, 𝒚𝒚 =
𝑦𝑦1
𝑦𝑦2
𝑥𝑥1
𝑥𝑥2
𝑦𝑦2
𝑦𝑦1
𝒙𝒙
𝒚𝒚
この間の距離は？

最も代表的な距離：ユークリッド距離 (3)
● 𝒙𝒙と 𝒚𝒚の距離の二乗 = 𝑥𝑥1 − 𝑦𝑦1
2 + 𝑥𝑥2 − 𝑦𝑦2
2
6
𝑥𝑥1
𝑥𝑥2
𝑦𝑦2
𝑦𝑦1
𝒙𝒙
𝒚𝒚

● 𝒙𝒙と 𝒚𝒚の距離の二乗 = 𝑥𝑥1 − 𝑦𝑦1
2
+ 𝑥𝑥2 − 𝑦𝑦2
2
+ 𝑥𝑥3 − 𝑦𝑦3
2
7
𝑥𝑥1
𝑥𝑥2
𝑦𝑦2
𝑦𝑦1
𝒙𝒙
𝒚𝒚
この間の距離は？
𝑦𝑦3
𝑥𝑥3

●2次元の場合
●3次元の場合
8
𝒙𝒙と 𝒚𝒚の距離の二乗
𝑥𝑥1
𝑥𝑥2
𝑦𝑦1
𝑦𝑦2
要素の差の二乗
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
𝑦𝑦1
𝑦𝑦2
𝑦𝑦3
𝒙𝒙 𝒚𝒚
𝒙𝒙 𝒚𝒚

● 𝐷𝐷次元の場合
9
𝑥𝑥1
⋮
𝑥𝑥𝐷𝐷
𝑦𝑦1
⋮
𝑦𝑦𝐷𝐷
𝒙𝒙 𝒚𝒚
⋮
というわけで，何次元ベクトルでも距離は計算可能
もちろん1次元ベクトル(数値)間の距離も計算可能
𝑥𝑥1 − 𝑦𝑦1
2

ユークリッド距離:プログラミング (８)
10
●2次元の場合 𝒙𝒙 =
60
150
, 𝒚𝒚 =
60
180
𝒙𝒙と 𝒚𝒚の距離= 𝑥𝑥1 − 𝑦𝑦1
2 + 𝑥𝑥2 − 𝑦𝑦2
2
import math
＃xとyの距離の二乗：各要素の二乗和
d2 = (60-60)**2 + (150-180)**2;
＃平方根
d = math.sqrt(d2)
# 表示
print d

ユークリッド距離:プログラミング (９)
11
70
160
, 𝒚𝒚 =
40
130
import math
d2 = (70-40)**2 + (160-130)**2;
＃平方根
d = math.sqrt(d2)
# 表示
print d
違う値になると、もう一度書き直さないといけない。

ユークリッド距離:プログラミング (１０)
12
𝑥𝑥1
𝑥𝑥2
, 𝒚𝒚 =
𝑦𝑦1
𝑦𝑦2
d2 = (x[0]-y[0])**2 + (x[1]-y[1])**2
＃平方根
d = math.sqrt(d2)
# 表示
print d
なるべく一般化してプログラムを記載！
これなら、 𝒙𝒙 と 𝒚𝒚 への入力後は同じ

ユークリッド距離:プログラミング (１１)
13
●３次元の場合 𝒙𝒙 =
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
, 𝒚𝒚 =
𝑦𝑦1
𝑦𝑦2
𝑦𝑦3
d2 = (x[0]-y[0])**2 + (x[1]-y[1])**2
＋ (x[2]-y[2])**2
＃平方根
d = math.sqrt(d2)
# 表示
print d
次元が変わると、プログラムが変わってしまった
⇒1000次元だと、1000個分の要素を書かないといけない？

ユークリッド距離:プログラミング (１２)
14
●N次元の場合 𝒙𝒙 =
𝑥𝑥1
⋮
𝑥𝑥𝑁𝑁
, 𝒚𝒚 =
𝑦𝑦1
⋮
𝑦𝑦3
for ii in range(len(x)):
d2 += (x[ii]-y[ii])**2
＃平方根
d = math.sqrt(d2)
# 表示
print d
何次元になっても、同じプログラムで表記できる。
⇒関数にしておくと、繰り返し簡単に使える。

ユークリッド距離:プログラミング (１３)
15
import numpy
＃ｘとｙの定義
x = numpy.array([60,180])
Y = numpy.array([60,150])
＃xとyの距離の計算
d = numpy.linalg.norm(x-y)
実は、pythonに関数が用意されている。
Webで調べて既にあるものを利用するのも
プログラミングの大事なスキル！

これで画像間の距離(似てる具合)も測れます
16
65536次元ベクトル 𝒙𝒙 65536次元ベクトル 𝒚𝒚
画像間距離
𝒙𝒙 − 𝒚𝒚
256 × 256 256 × 256
numpy.linalg.norm(x-y)
38574.86

ユークリッド距離だけじゃない：
様々な距離
L1距離
(マンハッタン距離)
ユークリッド距離
17

マンハッタン？
●斜めには行けない街
●平安京距離
●平城京距離
●札幌距離
でもいいかもね
●「市街地距離」と
呼ばれることも
18Google map
どのコースも同じ
マンハッタン距離！

マンハッタン距離:プログラミング (7)
19
●N次元の場合 𝒙𝒙 =
𝑥𝑥1
⋮
𝑥𝑥𝑁𝑁
, 𝒚𝒚 =
𝑦𝑦1
⋮
𝑦𝑦3
for ii in range(len(x)):
d2 += numpy.abs(x[ii]-y[ii])
# 表示
print d
𝒙𝒙と 𝒚𝒚の距離= 𝑥𝑥1 − 𝑦𝑦1 + ⋯ + 𝑥𝑥𝑁𝑁 − 𝑦𝑦𝑁𝑁
各要素の差の絶対値の和
絶対値

マンハッタン距離:プログラミング (7)
20
import numpy
x = numpy.array([60,180])
Y = numpy.array([60,150])
＃xとyの距離の計算
d = numpy.linalg.norm(x-y, 1)
こちらも、pythonに関数が用意されている。

練習1: 距離
●ユークリッド距離（任意の次元）を計算する関数を自身で定義して、
下記のベクトル間のユークリッド距離を求めよ
●例１）A=[10,8], B=[5,3]
●例２）A=[10,8,3], B=[5,3,7]
●numpyのデフォルトの関数を実行して結果が同じか比較しよう
●マンハッタン距離（任意の次元）を計算する関数を自身で定義して、
上記のベクトル間のマンハッタン距離を求めよ
21

練習２：距離（２）
●csvファイル” height_weight.csv”を読み込み、
A=(180,75)からの各点へのユークリッド距離をそれぞれ算
出し、最も距離が近い点を表示
●ヒント）1行目は項目名なので、無視
np.argmin()

分布の可視化
●csvファイル” height_weight.csv”を読み込み、「横
軸：身長、縦軸：体重」としてプロットして、分布の形状を
確かめよう。点Aを別の色で表示しよう。
plt.scatter(vlist[:,0], vlist[:,1],c='blue',marker='o',s=30)
plt.scatter(A[0], A[1],c=‘red’,marker=‘+’,s=100)
色マーカー
の形
マーカー
のサイズ

距離の可視化（１）
●A=(180,75)からの各点へのユークリッド距離をそれぞれ
算出し、最も距離が近い順に並び替えて、距離に応じて色
を変えて表示
# compute distances
A = np.array([180,75])
dlist = []
for row in vlist:
d = np.linalg.norm(A-row)
dlist.append(d)
# 距離が短い順に並び替え
sinds = np.argsort(dlist)[::-1]

距離の可視化（２）
●距離に応じて色を変えて表示
# visualize
import matplotlib.cm as cm
count = 0
# 距離の近い順にプロット
for i in sinds:
row = vlist[i]
# 並び順に応じて色を決定
c = cm.hot(count/len(vlist))
# 決定した色を指定してプロット
plt.scatter(row[0],row[1],color=c)
count += 1
# 点Aの可視化
plt.scatter(A[0], A[1], c=‘green’,
marker=‘+’, s=60)

練習3
A=(180,75)からの各点へのマンハッタン距離をそれぞれ
算出し、最も距離の短い順に並び替えて表示
●距離の長さで色を変えて、プロットしてみよう。
●ヒント）import matplotlib.cm as cm
cm.hot

データ間の類似度
「どれくらい似てるか」を測る
（お気づきのように，距離と似てますよね）

ユークリッド距離で測る類似度
28
65536次元
ベクトル 𝒙𝒙
65536次元
ベクトル 𝒚𝒚
256 × 256 256 × 256
16957.99
人の目には𝒛𝒛より𝒚𝒚の方が𝒙𝒙に類似しているが、
ユークリッド距離だと、 𝒛𝒛の方が𝒙𝒙からの距離が近い
256 × 256
65536次元
ベクトル 𝒛𝒛
画像間距離
画像間距離
12249.03 <

データ間の距離・類似度
29
𝒙𝒙
𝒚𝒚
イメージ図
𝒛𝒛
<
16957.99
12249.03
輝度の強さが違うだけで、
ベクトルの方向は一緒
角度で類似度を測る

思い出そう：内積
●なんかcos 𝜃𝜃 も出てきたような...
→ その通り．これ↓をつかって内積計算もできます．
●もっと大事なのは：
●－１ ≤ cos 𝜃𝜃 ≤ １
● 𝜃𝜃が0度（同じ向きのベクトル）：
30
𝒙𝒙 � 𝒚𝒚 = 𝒙𝒙 𝒚𝒚 cos 𝜃𝜃
𝒚𝒚
𝒙𝒙
長さ= 𝒙𝒙長さ= 𝒚𝒚
𝜃𝜃cos 𝜃𝜃 =
𝒙𝒙 � 𝒚𝒚
𝒙𝒙 𝒚𝒚

思い出そう：内積
●一定の大きさのベクトル𝒚𝒚を回転させながら𝒙𝒙と内積を取る
と...
31
𝒙𝒙
𝒚𝒚
𝒙𝒙 � 𝒚𝒚 = 𝟎𝟎
𝒙𝒙 � 𝒚𝒚 →最大
𝒙𝒙 � 𝒚𝒚 →最小 𝒙𝒙と𝒚𝒚が
同一方向なら大きい
逆方向なら小さい
𝒙𝒙と𝒚𝒚の
類似度に
使えそう!

正規化相関：プログラミング
32
cos 𝜃𝜃 =
𝒙𝒙 � 𝒚𝒚
𝒙𝒙 𝒚𝒚
正規化相関
import numpy as np
x = np.array([60,180])
y = np.array([60,150])
＃コサイン類似度
D = np.dot(x,y); # 内積
xd = np.linalg.norm(x); #||x||
yd = np.linalg.norm(y); #||y||
C = D/(xd*yd); # コサイン類似度
print C # 表示

正規化相関で測る類似度
33
65536次元
ベクトル 𝒙𝒙
65536次元
ベクトル 𝒚𝒚
256 × 256 256 × 256
1.0
256 × 256
65536次元
ベクトル 𝒛𝒛
画像間距離
コサイン類似度
画像間
コサイン類似度
0.932 <

練習４:類似度
●ベクトル間の正規化相間（類似度）を計算する関数を自身で定義
して、下記のベクトル間の類似度と距離を求めよ
●例１）A=[17,16], B=[5,3], C=[4,4]
•A-B、B-C、C-A間についてそれぞれ求めよう
●点A,B、Cへ原点から線を引いて可視化してみよう。
可視化した点の距離と角度を見て、類似度と距離の違いを考えてみ
よう
34

K-Means
データのクラスタリング(分類)

データ集合をグルーピングする
●我々は「距離」や「類似度」を手に入れた
●その結果，「与えられたデータ集合」を「それぞれ似たデー
タからなる幾つかのグループに分ける」ことが可能に！
36

クラスタリング(clustering)＝
データの集合をいくつかの部分集合に分割する(グルーピング)
●各部分集合＝「クラスタ」と呼ばれる
37

各クラスタから代表的なデータを選ぶと...
これらの代表データを見
るだけで，データ集合
全体の概略が見える
38

どういう分割がよいのか？
● 𝑁𝑁個のデータを𝐾𝐾個に分割する方法はおよそ𝐾𝐾 𝑁𝑁
通り
●100個のデータを10分割→およそ10100通り
●近くにあるデータが，なるべく同じ部分集合になるように
39

代表的なクラスタリング法：
K-means法（0）初期代表パターン
例えばランダム
に与える
40

K-means法（1）学習パターン分割
代表パターンの
ファンクラブ
（支持者集合）
41

K-means法（2）代表パターン更新
この中の学習
パターンの
平均に移動
42

K-means法（1）学習パターン分割
43

K-means法（2）代表パターン更新
以後，代表パターンが
動かなくなるまで反復
44

K-means：プログラミング
45
●ステップ0：
●データ入力
●クラスタ数の決定
import csv
＃データの入力
f = open(‘data.csv’,’rb’)
Reader = csv.reader(f)
vlist = []
for row in Reader:
vlist.append([float(row[0]),
float(row[1])])
vlist = np.array(vlist)
f.close()
#k(クラスタ数)の決定
K = 4;

46
●ステップ1：
●初期代表点の決定（ランダム）
＃random値の範囲決定
a = np.min(vlist[:,0])
b = np.max(vlist[:,0])
c = np.min(vlist[:,1])
d = np.max(vlist[:,1])
#ランダムに決定
Clist = np.c_[(b-a)*np.random.rand(K) + a,
(d-c)*np.random.rand(K) + c]
plt.scatter(vlist[:,0], vlist[:,1])
plt.scatter(Clist[:,0], Clist[:,1])

47
●ステップ１：
●代表点の支持者決定
⇒最も近い代表点を支持する。
距離を活用！
●ある点Xに着目
•各代表点までの距離を算出
A C
B
D
X
＃XとAの距離の計算
Ad = numpy.linalg.norm(X-A)

48
●ある点Xに着目
●距離が最も近い代表点を決定
A C
B
D
X
def nearest(X,Clist):
minD = Inf; minId = 0;
for ii in range(0,len(CList)):
C = Clist(ii,:)
d = numpy.linalg.norm(X-C)
if d < minD
minD = d; minId = ii;
return minId

49
●全ての点で代表点を決定
A
C
B
D
X
def selectCluster(vList,Clist):
cIList = [];
for row in vList:
cIList.append(nearest(row,Clist))
Return cIList

50
●ステップ2：代表点を更新
●各クラスタの支持者群の平均値
を代表点とする。
A
C
B
D
X
def updateCenter(vlist,CIList):
CList = []
for k in range(K):
Z = []
for j in range(len(CIList)):
if CIList[j] == k:
Z.append(vlist[j])
mc = np.mean(Z,0)
CList.append(mc)
return CList

51
アルゴリズム
ステップ0
繰り返し
•代表点の選択
•代表点の更新
•終了チェック
def clustering(vList,K):
Clist = random
err = 0.1
while dd > err:
preClist = Clist
CIList = selectCluster(vList,Clist)
Clist = updateCenter(CIList,vList,K)
dd = average(preClist-Clist)

K-meansクラスタリング
52

53

54

55

56

57

58
アイリスデータ
3クラス
Iris-setosa
Iris-versicolor
Iris-virginica
指標
sepal length
sepal width
petal length
petal width
https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data

アイリスデータ解析
59
Sepal length
Sepalwide
・ Iris-setosa
・ Iris-versicolor
・ Iris-virginica

アイリスデータ解析
60
Sepal length
Sepalwide
・ Iris-setosa
・ Iris-versicolor
・ Iris-virginica
Petal length
petalwide
Sepal length
Petallength
Sepal wide
petalwide

演習4-1
A=(180,75)からの各点への正規化相間（類似度）を
それぞれ算出し、最も類似度の高い順に並び替えて表示
●距離の長さで色を変えて、プロットしてみよう。
●ヒント）import matplotlib.cm as cm
cm.hot

演習４－2：クラスタリング：初期化（１）
●クラスタリングの対象となるcsvデータ“data.csv”を読み込
み
●各次元で上限、下限を取得
●K個の初期値として、各次元で上限、下限の範囲内でラン
ダムに値を取得
●データを黒点、代表点を色を変えて表示
63

演習4－２：クラスタリング：支持者の決定（２）
●各点ごとに各代表点との距離を求め、最も距離が短い代
表点を支持グループとする
●各点ごとに支持グループが決まったら、色を代表点の色に
合わせてプロット
●代表点は黒×印で表示
●ヒント：本日の講義内容を参照
64

演習4－2：クラスタリング：代表点更新（3）
●同じ支持グループの点集合に対して、平均を求め、それを
新しい代表点とする。
65

課題4－2：クラスタリング：全体（4）
●課題4‐3、4‐4を代表点の移動の総和が設定した閾値を
下回るまで、繰り返し実施
●繰り返し途中で、代表点及び支持グループを色を変えて、
表示。
●Kをいろいろ変えて、結果をみる。
●ランダムな初期値によって、結果がどう変わるか試してみよう
66

課題4－3：クラスタリング：アイリスデータ
●“iris.csv”を読み込み、Kの数を２、４と変えて試してみよ
う。
●ランダムな初期値によって、結果がどう変わるか試してみよう
67

課題4－4：クラスタリング：アイリスデータ
●“iris.csv”を読み込み、以下の２つの指標だけで、クラスタ
リング可能か試してみよう！
●K=２でも試してみよう
●指標１
●sepal length
●sepal width
●指標２
●sepal width
●petal width
68

DS Exercise Course 4

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to DS Exercise Course 4

Similar to DS Exercise Course 4 (9)

More from 大貴末廣

More from 大貴末廣 (11)