SlideShare a Scribd company logo
データサイエンス概論第二+演習第一
「距離とクラスタリング」
(5月29日)
九州大学 大学院システム情報科学研究院
情報知能工学部門
データサイエンス実践特別講座
備瀬竜馬,Diego Thomas, 末廣 大貴
データ間の距離
「どれくらい違うか」を測る
データ解析における「距離」とは?
●データ解析における「距離」
●要するにデータ間の差異 (似てない具合)
●距離が小さい2データは「似ている」
●単位がある場合もない場合も
3
𝒙𝒙
𝒚𝒚
𝒛𝒛
距離がわかると何に使えるか?
実は超便利!
●データ間の比較が定量的にできる
●「xとyは全然違う/結構似ている」 「xとyは28ぐらい違う」
●「xにとっては,yよりもzのほうが似ている」
●データ集合のグルーピングができる
●似たものとどおしでグループを作る
●データの異常度が測れる
●他に似たデータがたくさんあれば正常,
一つもなければ異常
[Goldstein, Uchida, PLoSONE, 2016]
データ間の距離・類似度:ユークリッド距離
5
地図上の2点 𝒙𝒙 =
𝑥𝑥1
𝑥𝑥2
, 𝒚𝒚 =
𝑦𝑦1
𝑦𝑦2
𝑥𝑥1
𝑥𝑥2
𝑦𝑦2
𝑦𝑦1
𝒙𝒙
𝒚𝒚
この間の距離は?
最も代表的な距離:ユークリッド距離 (3)
● 𝒙𝒙と 𝒚𝒚の距離の二乗 = 𝑥𝑥1 − 𝑦𝑦1
2 + 𝑥𝑥2 − 𝑦𝑦2
2
6
𝑥𝑥1
𝑥𝑥2
𝑦𝑦2
𝑦𝑦1
𝒙𝒙
𝒚𝒚
最も代表的な距離:ユークリッド距離 (5)
● 𝒙𝒙と 𝒚𝒚の距離の二乗 = 𝑥𝑥1 − 𝑦𝑦1
2
+ 𝑥𝑥2 − 𝑦𝑦2
2
+ 𝑥𝑥3 − 𝑦𝑦3
2
7
𝑥𝑥1
𝑥𝑥2
𝑦𝑦2
𝑦𝑦1
𝒙𝒙
𝒚𝒚
この間の距離は?
𝑦𝑦3
𝑥𝑥3
最も代表的な距離:ユークリッド距離 (6)
●2次元の場合
●3次元の場合
8
𝒙𝒙と 𝒚𝒚の距離の二乗
𝑥𝑥1
𝑥𝑥2
𝑦𝑦1
𝑦𝑦2
要素の差の二乗
要素の差の二乗
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
𝑦𝑦1
𝑦𝑦2
𝑦𝑦3
𝒙𝒙と 𝒚𝒚の距離の二乗
要素の差の二乗
要素の差の二乗
要素の差の二乗
𝒙𝒙 𝒚𝒚
𝒙𝒙 𝒚𝒚
最も代表的な距離:ユークリッド距離 (7)
● 𝐷𝐷次元の場合
9
𝑥𝑥1
⋮
𝑥𝑥𝐷𝐷
𝑦𝑦1
⋮
𝑦𝑦𝐷𝐷
𝒙𝒙と 𝒚𝒚の距離の二乗
要素の差の二乗
要素の差の二乗
𝒙𝒙 𝒚𝒚
⋮
というわけで,何次元ベクトルでも距離は計算可能
もちろん1次元ベクトル(数値)間の距離も計算可能
𝑥𝑥1 − 𝑦𝑦1
2
ユークリッド距離:プログラミング (8)
10
●2次元の場合 𝒙𝒙 =
60
150
, 𝒚𝒚 =
60
180
𝒙𝒙と 𝒚𝒚の距離= 𝑥𝑥1 − 𝑦𝑦1
2 + 𝑥𝑥2 − 𝑦𝑦2
2
import math
#xとyの距離の二乗:各要素の二乗和
d2 = (60-60)**2 + (150-180)**2;
#平方根
d = math.sqrt(d2)
# 表示
print d
ユークリッド距離:プログラミング (9)
11
●2次元の場合 𝒙𝒙 =
70
160
, 𝒚𝒚 =
40
130
import math
#xとyの距離の二乗:各要素の二乗和
d2 = (70-40)**2 + (160-130)**2;
#平方根
d = math.sqrt(d2)
# 表示
print d
違う値になると、もう一度書き直さないといけない。
ユークリッド距離:プログラミング (10)
12
●2次元の場合 𝒙𝒙 =
𝑥𝑥1
𝑥𝑥2
, 𝒚𝒚 =
𝑦𝑦1
𝑦𝑦2
#xとyの距離の二乗:各要素の二乗和
d2 = (x[0]-y[0])**2 + (x[1]-y[1])**2
#平方根
d = math.sqrt(d2)
# 表示
print d
なるべく一般化してプログラムを記載!
これなら、 𝒙𝒙 と 𝒚𝒚 への入力後は同じ
ユークリッド距離:プログラミング (11)
13
●3次元の場合 𝒙𝒙 =
𝑥𝑥1
𝑥𝑥2
𝑥𝑥3
, 𝒚𝒚 =
𝑦𝑦1
𝑦𝑦2
𝑦𝑦3
#xとyの距離の二乗:各要素の二乗和
d2 = (x[0]-y[0])**2 + (x[1]-y[1])**2
+ (x[2]-y[2])**2
#平方根
d = math.sqrt(d2)
# 表示
print d
次元が変わると、プログラムが変わってしまった
⇒1000次元だと、1000個分の要素を書かないといけない?
ユークリッド距離:プログラミング (12)
14
●N次元の場合 𝒙𝒙 =
𝑥𝑥1
⋮
𝑥𝑥𝑁𝑁
, 𝒚𝒚 =
𝑦𝑦1
⋮
𝑦𝑦3
#xとyの距離の二乗:各要素の二乗和
for ii in range(len(x)):
d2 += (x[ii]-y[ii])**2
#平方根
d = math.sqrt(d2)
# 表示
print d
何次元になっても、同じプログラムで表記できる。
⇒関数にしておくと、繰り返し簡単に使える。
ユークリッド距離:プログラミング (13)
15
import numpy
#xとyの定義
x = numpy.array([60,180])
Y = numpy.array([60,150])
#xとyの距離の計算
d = numpy.linalg.norm(x-y)
実は、pythonに関数が用意されている。
Webで調べて既にあるものを利用するのも
プログラミングの大事なスキル!
これで画像間の距離(似てる具合)も測れます
16
65536次元ベクトル 𝒙𝒙 65536次元ベクトル 𝒚𝒚
画像間距離
𝒙𝒙 − 𝒚𝒚
256 × 256 256 × 256
numpy.linalg.norm(x-y)
38574.86
ユークリッド距離だけじゃない:
様々な距離
L1距離
(マンハッタン距離)
ユークリッド距離
17
マンハッタン?
●斜めには行けない街
●平安京距離
●平城京距離
●札幌距離
でもいいかもね
●「市街地距離」と
呼ばれることも
18Google map
どのコースも同じ
マンハッタン距離!
マンハッタン距離:プログラミング (7)
19
●N次元の場合 𝒙𝒙 =
𝑥𝑥1
⋮
𝑥𝑥𝑁𝑁
, 𝒚𝒚 =
𝑦𝑦1
⋮
𝑦𝑦3
for ii in range(len(x)):
d2 += numpy.abs(x[ii]-y[ii])
# 表示
print d
𝒙𝒙と 𝒚𝒚の距離= 𝑥𝑥1 − 𝑦𝑦1 + ⋯ + 𝑥𝑥𝑁𝑁 − 𝑦𝑦𝑁𝑁
各要素の差の絶対値の和
絶対値
マンハッタン距離:プログラミング (7)
20
import numpy
#xとyの定義
x = numpy.array([60,180])
Y = numpy.array([60,150])
#xとyの距離の計算
d = numpy.linalg.norm(x-y, 1)
こちらも、pythonに関数が用意されている。
練習1: 距離
●ユークリッド距離(任意の次元)を計算する関数を自身で定義して、
下記のベクトル間のユークリッド距離を求めよ
●例1)A=[10,8], B=[5,3]
●例2)A=[10,8,3], B=[5,3,7]
●numpyのデフォルトの関数を実行して結果が同じか比較しよう
●マンハッタン距離(任意の次元)を計算する関数を自身で定義して、
上記のベクトル間のマンハッタン距離を求めよ
21
練習2:距離(2)
●csvファイル” height_weight.csv”を読み込み、
A=(180,75)からの各点へのユークリッド距離をそれぞれ算
出し、最も距離が近い点を表示
●ヒント)1行目は項目名なので、無視
np.argmin()
分布の可視化
●csvファイル” height_weight.csv”を読み込み、「横
軸:身長、縦軸:体重」としてプロットして、分布の形状を
確かめよう。点Aを別の色で表示しよう。
plt.scatter(vlist[:,0], vlist[:,1],c='blue',marker='o',s=30)
plt.scatter(A[0], A[1],c=‘red’,marker=‘+’,s=100)
色 マーカー
の形
マーカー
のサイズ
距離の可視化(1)
●A=(180,75)からの各点へのユークリッド距離をそれぞれ
算出し、最も距離が近い順に並び替えて、距離に応じて色
を変えて表示
# compute distances
A = np.array([180,75])
dlist = []
for row in vlist:
d = np.linalg.norm(A-row)
dlist.append(d)
# 距離が短い順に並び替え
sinds = np.argsort(dlist)[::-1]
距離の可視化(2)
●距離に応じて色を変えて表示
# visualize
import matplotlib.cm as cm
count = 0
# 距離の近い順にプロット
for i in sinds:
row = vlist[i]
# 並び順に応じて色を決定
c = cm.hot(count/len(vlist))
# 決定した色を指定してプロット
plt.scatter(row[0],row[1],color=c)
count += 1
# 点Aの可視化
plt.scatter(A[0], A[1], c=‘green’,
marker=‘+’, s=60)
練習3
●csvファイル” height_weight.csv”を読み込み、
A=(180,75)からの各点へのマンハッタン距離をそれぞれ
算出し、最も距離の短い順に並び替えて表示
●ヒント)1行目は項目名なので、無視
●距離の長さで色を変えて、プロットしてみよう。
●ヒント)import matplotlib.cm as cm
cm.hot
データ間の類似度
「どれくらい似てるか」を測る
(お気づきのように,距離と似てますよね)
ユークリッド距離で測る類似度
28
65536次元
ベクトル 𝒙𝒙
65536次元
ベクトル 𝒚𝒚
256 × 256 256 × 256
16957.99
人の目には𝒛𝒛より𝒚𝒚の方が𝒙𝒙に類似しているが、
ユークリッド距離だと、 𝒛𝒛の方が𝒙𝒙からの距離が近い
256 × 256
65536次元
ベクトル 𝒛𝒛
画像間距離
𝒙𝒙 − 𝒚𝒚
画像間距離
𝒙𝒙 − 𝒚𝒚
12249.03 <
データ間の距離・類似度
29
𝒙𝒙
𝒚𝒚
イメージ図
𝒛𝒛
<
16957.99
12249.03
輝度の強さが違うだけで、
ベクトルの方向は一緒
角度で類似度を測る
思い出そう:内積
●なんかcos 𝜃𝜃 も出てきたような...
→ その通り.これ↓をつかって内積計算もできます.
●もっと大事なのは:
●-1 ≤ cos 𝜃𝜃 ≤ 1
● 𝜃𝜃が0度(同じ向きのベクトル):
30
𝒙𝒙 � 𝒚𝒚 = 𝒙𝒙 𝒚𝒚 cos 𝜃𝜃
𝒚𝒚
𝒙𝒙
長さ= 𝒙𝒙長さ= 𝒚𝒚
𝜃𝜃cos 𝜃𝜃 =
𝒙𝒙 � 𝒚𝒚
𝒙𝒙 𝒚𝒚
思い出そう:内積
●一定の大きさのベクトル𝒚𝒚を回転させながら𝒙𝒙と内積を取る
と...
31
𝒙𝒙
𝒚𝒚
𝒙𝒙 � 𝒚𝒚 = 𝟎𝟎
𝒙𝒙 � 𝒚𝒚 →最大
𝒙𝒙 � 𝒚𝒚 →最小 𝒙𝒙と𝒚𝒚が
同一方向なら大きい
逆方向なら小さい
𝒙𝒙と𝒚𝒚の
類似度に
使えそう!
正規化相関:プログラミング
32
cos 𝜃𝜃 =
𝒙𝒙 � 𝒚𝒚
𝒙𝒙 𝒚𝒚
正規化相関
import numpy as np
#xとyの定義
x = np.array([60,180])
y = np.array([60,150])
#コサイン類似度
D = np.dot(x,y); # 内積
xd = np.linalg.norm(x); #||x||
yd = np.linalg.norm(y); #||y||
C = D/(xd*yd); # コサイン類似度
print C # 表示
正規化相関で測る類似度
33
65536次元
ベクトル 𝒙𝒙
65536次元
ベクトル 𝒚𝒚
256 × 256 256 × 256
1.0
256 × 256
65536次元
ベクトル 𝒛𝒛
画像間距離
コサイン類似度
画像間
コサイン類似度
0.932 <
練習4:類似度
●ベクトル間の正規化相間(類似度)を計算する関数を自身で定義
して、下記のベクトル間の類似度と距離を求めよ
●例1)A=[17,16], B=[5,3], C=[4,4]
•A-B、B-C、C-A間についてそれぞれ求めよう
●点A,B、Cへ原点から線を引いて可視化してみよう。
可視化した点の距離と角度を見て、類似度と距離の違いを考えてみ
よう
34
K-Means
データのクラスタリング(分類)
データ集合をグルーピングする
●我々は「距離」や「類似度」を手に入れた
●その結果,「与えられたデータ集合」を「それぞれ似たデー
タからなる幾つかのグループに分ける」ことが可能に!
36
クラスタリング(clustering)=
データの集合をいくつかの部分集合に分割する(グルーピング)
●各部分集合=「クラスタ」と呼ばれる
37
各クラスタから代表的なデータを選ぶと...
これらの代表データを見
るだけで,データ集合
全体の概略が見える
38
どういう分割がよいのか?
● 𝑁𝑁個のデータを𝐾𝐾個に分割する方法はおよそ𝐾𝐾 𝑁𝑁
通り
●100個のデータを10分割→およそ10100通り
●近くにあるデータが,なるべく同じ部分集合になるように
39
代表的なクラスタリング法:
K-means法(0)初期代表パターン
例えばランダム
に与える
40
代表的なクラスタリング法:
K-means法(1)学習パターン分割
代表パターンの
ファンクラブ
(支持者集合)
41
代表的なクラスタリング法:
K-means法(2)代表パターン更新
この中の学習
パターンの
平均に移動
42
代表的なクラスタリング法:
K-means法(1)学習パターン分割
43
代表的なクラスタリング法:
K-means法(2)代表パターン更新
以後,代表パターンが
動かなくなるまで反復
44
K-means:プログラミング
45
●ステップ0:
●データ入力
●クラスタ数の決定
import csv
#データの入力
f = open(‘data.csv’,’rb’)
Reader = csv.reader(f)
vlist = []
for row in Reader:
vlist.append([float(row[0]),
float(row[1])])
vlist = np.array(vlist)
f.close()
#k(クラスタ数)の決定
K = 4;
K-means:プログラミング
46
●ステップ1:
●初期代表点の決定(ランダム)
#random値の範囲決定
a = np.min(vlist[:,0])
b = np.max(vlist[:,0])
c = np.min(vlist[:,1])
d = np.max(vlist[:,1])
#ランダムに決定
Clist = np.c_[(b-a)*np.random.rand(K) + a,
(d-c)*np.random.rand(K) + c]
plt.scatter(vlist[:,0], vlist[:,1])
plt.scatter(Clist[:,0], Clist[:,1])
K-means:プログラミング
47
●ステップ1:
●代表点の支持者決定
⇒最も近い代表点を支持する。
距離を活用!
●ある点Xに着目
•各代表点までの距離を算出
A C
B
D
X
#XとAの距離の計算
Ad = numpy.linalg.norm(X-A)
K-means:プログラミング
48
●ステップ1:
●ある点Xに着目
●距離が最も近い代表点を決定
A C
B
D
X
def nearest(X,Clist):
minD = Inf; minId = 0;
for ii in range(0,len(CList)):
C = Clist(ii,:)
d = numpy.linalg.norm(X-C)
if d < minD
minD = d; minId = ii;
return minId
K-means:プログラミング
49
●ステップ1:
●全ての点で代表点を決定
A
C
B
D
X
def selectCluster(vList,Clist):
cIList = [];
for row in vList:
cIList.append(nearest(row,Clist))
Return cIList
K-means:プログラミング
50
●ステップ2:代表点を更新
●各クラスタの支持者群の平均値
を代表点とする。
A
C
B
D
X
def updateCenter(vlist,CIList):
CList = []
for k in range(K):
Z = []
for j in range(len(CIList)):
if CIList[j] == k:
Z.append(vlist[j])
mc = np.mean(Z,0)
CList.append(mc)
return CList
K-means:プログラミング
51
アルゴリズム
ステップ0
繰り返し
•代表点の選択
•代表点の更新
•終了チェック
def clustering(vList,K):
Clist = random
err = 0.1
while dd > err:
preClist = Clist
CIList = selectCluster(vList,Clist)
Clist = updateCenter(CIList,vList,K)
dd = average(preClist-Clist)
K-meansクラスタリング
52
K-meansクラスタリング
53
K-meansクラスタリング
54
K-meansクラスタリング
55
K-meansクラスタリング
56
K-meansクラスタリング
57
K-meansクラスタリング
58
アイリスデータ
3クラス
Iris-setosa
Iris-versicolor
Iris-virginica
指標
sepal length
sepal width
petal length
petal width
https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data
アイリスデータ解析
59
Sepal length
Sepalwide
・ Iris-setosa
・ Iris-versicolor
・ Iris-virginica
アイリスデータ解析
60
Sepal length
Sepalwide
・ Iris-setosa
・ Iris-versicolor
・ Iris-virginica
Petal length
petalwide
Sepal length
Petallength
Sepal wide
petalwide
演習
演習4-1
●csvファイル” height_weight.csv”を読み込み、
A=(180,75)からの各点への正規化相間(類似度)を
それぞれ算出し、最も類似度の高い順に並び替えて表示
●ヒント)1行目は項目名なので、無視
●距離の長さで色を変えて、プロットしてみよう。
●ヒント)import matplotlib.cm as cm
cm.hot
演習4-2:クラスタリング:初期化(1)
●クラスタリングの対象となるcsvデータ“data.csv”を読み込
み
●各次元で上限、下限を取得
●K個の初期値として、各次元で上限、下限の範囲内でラン
ダムに値を取得
●データを黒点、代表点を色を変えて表示
63
演習4-2:クラスタリング:支持者の決定(2)
●各点ごとに各代表点との距離を求め、最も距離が短い代
表点を支持グループとする
●各点ごとに支持グループが決まったら、色を代表点の色に
合わせてプロット
●代表点は黒×印で表示
●ヒント:本日の講義内容を参照
64
演習4-2:クラスタリング:代表点更新(3)
●同じ支持グループの点集合に対して、平均を求め、それを
新しい代表点とする。
65
課題4-2:クラスタリング:全体(4)
●課題4‐3、4‐4を代表点の移動の総和が設定した閾値を
下回るまで、繰り返し実施
●繰り返し途中で、代表点及び支持グループを色を変えて、
表示。
●Kをいろいろ変えて、結果をみる。
●ランダムな初期値によって、結果がどう変わるか試してみよう
66
課題4-3:クラスタリング:アイリスデータ
●“iris.csv”を読み込み、Kの数を2、4と変えて試してみよ
う。
●ランダムな初期値によって、結果がどう変わるか試してみよう
67
課題4-4:クラスタリング:アイリスデータ
●“iris.csv”を読み込み、以下の2つの指標だけで、クラスタ
リング可能か試してみよう!
●K=2でも試してみよう
●指標1
●sepal length
●sepal width
●指標2
●sepal width
●petal width
68

More Related Content

What's hot

データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラムデータサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
Seiichi Uchida
 
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
Seiichi Uchida
 
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはデータサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
Seiichi Uchida
 
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
Seiichi Uchida
 
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
Seiichi Uchida
 
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがきデータサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
Seiichi Uchida
 
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリングデータサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
Seiichi Uchida
 
画像処理基礎
画像処理基礎画像処理基礎
画像処理基礎
大貴 末廣
 
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
Seiichi Uchida
 
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)Motoya Wakiyama
 
データ解析12 k平均法
データ解析12 k平均法データ解析12 k平均法
データ解析12 k平均法
Hirotaka Hachiya
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習
Hirotaka Hachiya
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
Naoki Hayashi
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
Deep Learning JP
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン
Hirotaka Hachiya
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
Naoki Hayashi
 
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回
ke beck
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
Seiichi Uchida
 
201803NC
201803NC201803NC
201803NC
Naoki Hayashi
 
統計的学習の基礎 3章前半
統計的学習の基礎 3章前半統計的学習の基礎 3章前半
統計的学習の基礎 3章前半
Kazunori Miyanishi
 

What's hot (20)

データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラムデータサイエンス概論第一=4-1 相関・頻度・ヒストグラム
データサイエンス概論第一=4-1 相関・頻度・ヒストグラム
 
データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析データサイエンス概論第一=3-3 回帰分析
データサイエンス概論第一=3-3 回帰分析
 
データサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとはデータサイエンス概論第一=1-1 データとは
データサイエンス概論第一=1-1 データとは
 
データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合データサイエンス概論第一=1-2 データのベクトル表現と集合
データサイエンス概論第一=1-2 データのベクトル表現と集合
 
データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析データサイエンス概論第一=3-2 主成分分析と因子分析
データサイエンス概論第一=3-2 主成分分析と因子分析
 
データサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがきデータサイエンス概論第一=0 まえがき
データサイエンス概論第一=0 まえがき
 
データサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリングデータサイエンス概論第一=2-2 クラスタリング
データサイエンス概論第一=2-2 クラスタリング
 
画像処理基礎
画像処理基礎画像処理基礎
画像処理基礎
 
データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習データサイエンス概論第一=8 パターン認識と深層学習
データサイエンス概論第一=8 パターン認識と深層学習
 
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)はじめてのパターン認識 第5章 k最近傍法(k_nn法)
はじめてのパターン認識 第5章 k最近傍法(k_nn法)
 
データ解析12 k平均法
データ解析12 k平均法データ解析12 k平均法
データ解析12 k平均法
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習
 
ベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-oldベイズ統計学の概論的紹介-old
ベイズ統計学の概論的紹介-old
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン
 
ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介ベイズ統計学の概論的紹介
ベイズ統計学の概論的紹介
 
カステラ本勉強会 第三回
カステラ本勉強会 第三回カステラ本勉強会 第三回
カステラ本勉強会 第三回
 
データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理データサイエンス概論第一=7 画像処理
データサイエンス概論第一=7 画像処理
 
201803NC
201803NC201803NC
201803NC
 
統計的学習の基礎 3章前半
統計的学習の基礎 3章前半統計的学習の基礎 3章前半
統計的学習の基礎 3章前半
 

Similar to DS Exercise Course 4

九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
RyomaBise1
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)正志 坪坂
 
クラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングクラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリング
Hiroshi Nakagawa
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
Shunsuke Nakamura
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでしたHaruka Ozaki
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズムTakuya Akiba
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
Antonio Tejero de Pablos
 
ICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity JoinsICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity Joins
Masumi Shirakawa
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能
Hiroshi Nakagawa
 

Similar to DS Exercise Course 4 (9)

九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング九大_DS実践_距離とクラスタリング
九大_DS実践_距離とクラスタリング
 
Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)Big Data Bootstrap (ICML読み会)
Big Data Bootstrap (ICML読み会)
 
クラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリングクラシックな機械学習の入門  8. クラスタリング
クラシックな機械学習の入門  8. クラスタリング
 
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V7
 
距離まとめられませんでした
距離まとめられませんでした距離まとめられませんでした
距離まとめられませんでした
 
大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム大規模ネットワークの性質と先端グラフアルゴリズム
大規模ネットワークの性質と先端グラフアルゴリズム
 
Machine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEEMachine Learning Fundamentals IEEE
Machine Learning Fundamentals IEEE
 
ICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity JoinsICDE2014 Session 22 Similarity Joins
ICDE2014 Session 22 Similarity Joins
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能
 

More from 大貴 末廣

相関分析と回帰分析
相関分析と回帰分析相関分析と回帰分析
相関分析と回帰分析
大貴 末廣
 
統計分析
統計分析統計分析
統計分析
大貴 末廣
 
主成分分析
主成分分析主成分分析
主成分分析
大貴 末廣
 
データサイエンスことはじめ
データサイエンスことはじめデータサイエンスことはじめ
データサイエンスことはじめ
大貴 末廣
 
Python基礎その2
Python基礎その2Python基礎その2
Python基礎その2
大貴 末廣
 
Python基礎その1
Python基礎その1Python基礎その1
Python基礎その1
大貴 末廣
 
DS Exercise Course 6
DS Exercise Course 6DS Exercise Course 6
DS Exercise Course 6
大貴 末廣
 
DS Exercise Course 5
DS Exercise Course 5DS Exercise Course 5
DS Exercise Course 5
大貴 末廣
 
DS Exercise Course 3
DS Exercise Course 3DS Exercise Course 3
DS Exercise Course 3
大貴 末廣
 
DS Exercise Course 2
DS Exercise Course 2DS Exercise Course 2
DS Exercise Course 2
大貴 末廣
 
DS Exercise Course 1
DS Exercise Course 1DS Exercise Course 1
DS Exercise Course 1
大貴 末廣
 

More from 大貴 末廣 (11)

相関分析と回帰分析
相関分析と回帰分析相関分析と回帰分析
相関分析と回帰分析
 
統計分析
統計分析統計分析
統計分析
 
主成分分析
主成分分析主成分分析
主成分分析
 
データサイエンスことはじめ
データサイエンスことはじめデータサイエンスことはじめ
データサイエンスことはじめ
 
Python基礎その2
Python基礎その2Python基礎その2
Python基礎その2
 
Python基礎その1
Python基礎その1Python基礎その1
Python基礎その1
 
DS Exercise Course 6
DS Exercise Course 6DS Exercise Course 6
DS Exercise Course 6
 
DS Exercise Course 5
DS Exercise Course 5DS Exercise Course 5
DS Exercise Course 5
 
DS Exercise Course 3
DS Exercise Course 3DS Exercise Course 3
DS Exercise Course 3
 
DS Exercise Course 2
DS Exercise Course 2DS Exercise Course 2
DS Exercise Course 2
 
DS Exercise Course 1
DS Exercise Course 1DS Exercise Course 1
DS Exercise Course 1
 

DS Exercise Course 4