Your SlideShare is downloading. ×
Datamining 5th knn
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Datamining 5th knn

561
views

Published on

Published in: Business, Technology

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
561
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. データマイニング クラス分類(IV) -手書き文字データの説明 k-NN 瀬々 潤 sesejun@is.ocha.ac.jp
  • 2. ・数字判別の問題・k-最近点分類法
  • 3. 先週までの話• クラス分類問題を扱ってきた • 例題として、コンタクトレンズを処方するか、し ないかのデータ• 手法として扱ってきた物 •決定木 •NaiveBayes •AdaBoost• テスト(属性)が、離散値(例題では2値)で表さ れるもののみ扱った
  • 4. 数字判別の流れ172 ¨ D. DECOSTE AND B. SCHOLKOPF 画像 文字判別で利用する 形式に変換 この授業ではこちらに注力 文字の判別Figure 2. The first 100 USPS training images, with class labels.(1993) used an enlarged training set of size 9709, containing some additional machine-printed digits, and note that this improves the accuracy on the test set. Similarly, Bot-tou and Vapnik (1992) used a training set of size 9840. Since there are no machine- 4
  • 5. 数字画像をデータへ変換 • 画像データを数値に変換します •今回利用するUSPSの画像データは,256階調(8bit)の 白黒画像 • ラスタ画像(ベクタ画像ではない) • 各ドットが1つの値(輝度)を持つ •縦,横それぞれ16ドット=256ドット • 256次元のデータ • 文字の書き順や,どちらの方向に向かって線を引いたか, と言った情報は,利用できないものとします. 黒っぽい 比較的白っぽいクラス 0,0 0,1 0,2 0,3 0,4 … 15,12 15,13 15,14 15,15 2 46 0 22 0 46 … 106 188 138 0 5
  • 6. 問題例(1/3): 名称 クラス 属性(アトリビュート,カラム) (ラベル) ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 1 2 46 0 22 0 … 138 0 サンプル 2 1 0 59 13 0 … 13 42(トランザク 3 8 0 46 56 50 … 42 0 ション、 タップル、 … … … … … … … … … レコード) ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 100 ? 59 13 0 28 … 13 42 … … … … … … … … … • 今回は属性の名称としてドットの位置が入っています 6
  • 7. 問題例(2/3): 訓練とテスト訓練データ(Training Data): 各サンプルのクラスが分かっている ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 1 2 46 0 22 0 … 138 0 2 1 0 59 13 0 … 13 42 3 8 0 46 56 50 … 42 0 … … … … … … … … …テストデータ(Test Data): 各サンプルのクラスが不明 ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 100 ? 59 13 0 28 … 13 42 … … … … … … … … … 7
  • 8. 問題例(3/3): 問題設定• 訓練データとテストデータが与えられたとき、テスト データのクラスを予測せよ。 •今回の文字の例では、予め数字の分かっている文字 画像が与えられている(訓練データ) •新しい文字が与えられた時(テストデータ)、その 文字に何の数字が書かれているかを予測する• 画像の問題と言っても、結局クラス分類問題になる 8
  • 9. この授業で用いるデータ• USPSの数字データ • http://www.cs.toronto.edu/ roweis/data.html• 0から9の数字それぞれ1,100個 • 1,000個を訓練データ,100個をテストデータとして扱う• 全体で10,000個の訓練データ,1,000個のテストデータ • このままだと,データがとても大きいので,1,000個の訓練 データと100個のテストデータのバージョンも配布します• 画像はすでに,数値に変換をしたものを配布します• クラス分類問題だけでなく、クラスタリングでもこのデータを 利用します 9
  • 10. クラス分類問題• データは訓練データとテストデータに分かれている• テストデータのクラスを予測をする問題• 数字の例では、訓練データが256次元。訓練データ モデル を作成 予測テストデータ モデルの適用 10
  • 11. 多クラスのクラス分類• 多くのクラス分類アルゴリズムは,2個のクラス(○ or  あ るいは,1 or -1 )を分類する用に作成されている• 数字を当てる問題は,0∼9まで9つ種類があり,実際にはとても 難しい問題 •多クラスのクラス分類問題と呼ばれる •因に,数値を当てる問題は,回帰問題(regression)と呼ばれる• この授業では簡単のため,数値を当てる問題を「0か,それ以 外」か「1か,それ以外か」といった問題に変更して解く •簡単に多クラスに拡張できるアルゴリズムは,本授業内でも, 多クラスで話を進める 11
  • 12. 画像の距離 • 2つの画像の距離を測りたい。 •どの画像が似ているのか、違っているのか。 • 一例として、マンハッタン距離: •点と点を軸に添って測った距離の和x2 x |dx1 | + |dx2 | dx2 (A) (C) y (A) 0001111001110010...100 dx1 (C) 0001110000110010...100 x1 多次元ベクトル(上記の図は64次元) 実数でも計算可能(値の差の絶対値を取れば良い) この後の例ではグレースケール(白,黒だけでなく, その中間色もある)で話を進める 12
  • 13. 様々な距離• 実数値のデータの距離 •それぞれのサンプルを多次元上の1点と見なす • ユークリッド距離 • マンハッタン距離 •様々な距離があり、状況によって適切なものを利用する x2 x2 x x dx2 + dx2 1 2 |dx1 | + |dx2 | dx2 dx2 y y dx1 dx1 x1 x1 (A) 直線距離(ユークリッド(ノルム)距離) (B) マンハッタン距離
  • 14. 相関係数(correlation coefficient) • 点x=(x1, x2,...,xn)と点y=(y1,y2,...,yn)を考える. • 点x, y 間の相関係数(Pearson s R)は次式で与えられる n i=1 (xi − x)(yi − y ) ¯ ¯ r = n n i=1 (xi − x)2 ¯ i=1 (yi − y )2 ¯ • 2次元上のn点の配置を見ている y y y x x x r≈1 r≈0 r ≈ −1 正の相関 相関なし 負の相関 • 距離関数ではない(三角不等式が満たされない)
  • 15. k-最近点分類法 (k-最近傍法、k-Nearest Neighbor)
  • 16. 1-最近点分類 •最も白と黒が一致する=マンハッタン距離が最も近い •最も距離が近い訓練データのクラスを予測とする手法を 1-最近点分類と呼ぶ点2の輝度 点2の輝度 B A B A Eが○なので, Qに最も近い点はE Qを○と予測 C C D E D E Q G Q G F I F I H H K J L K J L 点1の輝度 点1の輝度 (A) 訓練データ (B) サンプルのクラス予測 16
  • 17. K-最近点分類 (K-Nearest Neighbor)• 属性が似ているサンプルは,クラスも似ている1. クラスを予測したいテストデータのサンプルをQとする.2. Qから訓練データ中で最も距離が近いk個のサンプルを選択. • 距離空間の選択は任意(後述)3. そのk点のクラス(○, )を調べ,最も多いクラスをQの予測クラス とする.点2の輝度 点2の輝度 A A B B C C D E D E F F 3-NN Q G Q G H J H J I I K L K L 点1の輝度 点1の輝度 (A) 訓練データ (B) サンプルのクラス予測 17
  • 18. K-NNの距離関数やKの決め方• 距離関数 •近いピクセル同士の距離を重要視する •数字の認識に重要そうな場所を重要視する •「重要視」は距離関数としては「重み」をつけることに相 当 • 端の点の輝度が50ずれるのより,中央付近の点の輝度が 10ずれることを重要視するなど• Kの値 •与えられたデータによって値が変化する •今のところ答えはない(なので、えいやっ!と決める) •いろいろ実験してみて決める • 手動ではなく,自動で実験するには・・・ • クロスバリデーション。統計的な手法、など。 18