4. 数字判別の流れ
172 ¨
D. DECOSTE AND B. SCHOLKOPF
画像
文字判別で利用する
形式に変換
この授業ではこちらに注力
文字の判別
Figure 2. The first 100 USPS training images, with class labels.
(1993) used an enlarged training set of size 9709, containing some additional machine-
printed digits, and note that this improves the accuracy on the test set. Similarly, Bot-
tou and Vapnik (1992) used a training set of size 9840. Since there are no machine-
4
13. 様々な距離
• 実数値のデータの距離
•それぞれのサンプルを多次元上の1点と見なす
•
ユークリッド距離
•
マンハッタン距離
•様々な距離があり、状況によって適切なものを利用する
x2 x2
x x
dx2 + dx2
1 2
|dx1 | + |dx2 |
dx2 dx2
y y
dx1 dx1
x1 x1
(A) 直線距離(ユークリッド(ノルム)距離) (B) マンハッタン距離
14. 相関係数(correlation coefficient)
• 点x=(x1, x2,...,xn)と点y=(y1,y2,...,yn)を考える.
• 点x, y 間の相関係数(Pearson s R)は次式で与えられる
n
i=1 (xi
− x)(yi − y )
¯ ¯
r = n n
i=1 (xi − x)2
¯ i=1 (yi − y )2
¯
• 2次元上のn点の配置を見ている
y y y
x x x
r≈1 r≈0 r ≈ −1
正の相関 相関なし 負の相関
• 距離関数ではない(三角不等式が満たされない)
16. 1-最近点分類
•最も白と黒が一致する=マンハッタン距離が最も近い
•最も距離が近い訓練データのクラスを予測とする手法を
1-最近点分類と呼ぶ
点2の輝度 点2の輝度
B A B A
Eが○なので,
Qに最も近い点はE Qを○と予測
C C
D E D E
Q G Q G
F I F I
H H
K J L K J L
点1の輝度 点1の輝度
(A) 訓練データ (B) サンプルのクラス予測
16
17. K-最近点分類 (K-Nearest Neighbor)
• 属性が似ているサンプルは,クラスも似ている
1. クラスを予測したいテストデータのサンプルをQとする.
2. Qから訓練データ中で最も距離が近いk個のサンプルを選択.
• 距離空間の選択は任意(後述)
3. そのk点のクラス(○, )を調べ,最も多いクラスをQの予測クラス
とする.
点2の輝度
点2の輝度 A
A B
B C
C
D E
D E F
F 3-NN Q G
Q G H J
H J I
I
K L
K L
点1の輝度 点1の輝度
(A) 訓練データ (B) サンプルのクラス予測 17