SlideShare a Scribd company logo
1 of 18
Download to read offline
データマイニング
  クラス分類(IV) -
手書き文字データの説明
    k-NN

        瀬々 潤
  sesejun@is.ocha.ac.jp
・数字判別の問題
・k-最近点分類法
先週までの話
• クラス分類問題を扱ってきた
 • 例題として、コンタクトレンズを処方するか、し
     ないかのデータ
•   手法として扱ってきた物
    •決定木
    •NaiveBayes
    •AdaBoost
•   テスト(属性)が、離散値(例題では2値)で表さ
    れるもののみ扱った
数字判別の流れ
172                                                                                    ¨
                                                                  D. DECOSTE AND B. SCHOLKOPF




                                                                                                 画像



                                                                                                文字判別で利用する
                                                                                                形式に変換

                                                                                                  この授業ではこちらに注力

                                                                                                文字の判別
Figure 2. The first 100 USPS training images, with class labels.


(1993) used an enlarged training set of size 9709, containing some additional machine-
printed digits, and note that this improves the accuracy on the test set. Similarly, Bot-
tou and Vapnik (1992) used a training set of size 9840. Since there are no machine-
                                                                                                             4
数字画像をデータへ変換
      •   画像データを数値に変換します
          •今回利用するUSPSの画像データは,256階調(8bit)の
           白黒画像
              •
            ラスタ画像(ベクタ画像ではない)
              •
            各ドットが1つの値(輝度)を持つ
          •縦,横それぞれ16ドット=256ドット
              •
            256次元のデータ
      •   文字の書き順や,どちらの方向に向かって線を引いたか,
          と言った情報は,利用できないものとします.

                  黒っぽい                           比較的白っぽい


クラス       0,0     0,1   0,2   0,3   0,4   …   15,12   15,13   15,14   15,15

 2        46      0     22    0     46    …   106     188     138      0
                                                                           5
問題例(1/3): 名称
            クラス
                                属性(アトリビュート,カラム)
           (ラベル)

          ID    クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

          1      2    46    0     22    0     …   138      0

  サンプル    2      1    0     59    13    0     …    13      42
(トランザク    3      8    0     46    56    50    …    42      0
  ション、
 タップル、    …     …     …     …     …     …     …    …       …
 レコード)
          ID    クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

          100    ?    59    13    0     28    …    13      42

          …     …     …     …     …     …     …    …       …


    •    今回は属性の名称としてドットの位置が入っています                              6
問題例(2/3): 訓練とテスト
訓練データ(Training Data): 各サンプルのクラスが分かっている

      ID   クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

      1     2    46    0     22    0     …   138      0

      2     1    0     59    13    0     …    13      42

      3     8    0     46    56    50    …    42      0

      …    …     …     …     …     …     …    …       …

テストデータ(Test Data): 各サンプルのクラスが不明
      ID   クラス   0,0   0,1   0,2   0,3   …   15,14   15,15

     100    ?    59    13    0     28    …    13      42

      …     …    …     …     …     …     …    …       …


                                                          7
問題例(3/3): 問題設定

• 訓練データとテストデータが与えられたとき、テスト
 データのクラスを予測せよ。
 •今回の文字の例では、予め数字の分かっている文字
  画像が与えられている(訓練データ)
 •新しい文字が与えられた時(テストデータ)、その
  文字に何の数字が書かれているかを予測する


• 画像の問題と言っても、結局クラス分類問題になる

                             8
この授業で用いるデータ
•   USPSの数字データ
    • http://www.cs.toronto.edu/ roweis/data.html
•   0から9の数字それぞれ1,100個
    • 1,000個を訓練データ,100個をテストデータとして扱う
•   全体で10,000個の訓練データ,1,000個のテストデータ
    • このままだと,データがとても大きいので,1,000個の訓練
      データと100個のテストデータのバージョンも配布します
•   画像はすでに,数値に変換をしたものを配布します


•   クラス分類問題だけでなく、クラスタリングでもこのデータを
    利用します
                                                9
クラス分類問題
•   データは訓練データとテストデータに分かれている
•   テストデータのクラスを予測をする問題
•   数字の例では、訓練データが256次元。

訓練データ
         モデル
         を作成


                        予測


テストデータ
               モデルの適用

                              10
多クラスのクラス分類
•   多くのクラス分類アルゴリズムは,2個のクラス(○ or  あ
    るいは,1 or -1 )を分類する用に作成されている
•   数字を当てる問題は,0∼9まで9つ種類があり,実際にはとても
    難しい問題
    •多クラスのクラス分類問題と呼ばれる
    •因に,数値を当てる問題は,回帰問題(regression)と呼ばれる
•   この授業では簡単のため,数値を当てる問題を「0か,それ以
    外」か「1か,それ以外か」といった問題に変更して解く
    •簡単に多クラスに拡張できるアルゴリズムは,本授業内でも,
     多クラスで話を進める



                                     11
画像の距離
       •   2つの画像の距離を測りたい。
           •どの画像が似ているのか、違っているのか。
       •   一例として、マンハッタン距離:
           •点と点を軸に添って測った距離の和
x2
       x

           |dx1 | + |dx2 |
 dx2                                 (A)        (C)
                    y
                              (A) 0001111001110010...100
           dx1
                              (C) 0001110000110010...100
                        x1
                              多次元ベクトル(上記の図は64次元)

       実数でも計算可能(値の差の絶対値を取れば良い)
       この後の例ではグレースケール(白,黒だけでなく,
       その中間色もある)で話を進める                                     12
様々な距離
•   実数値のデータの距離
    •それぞれのサンプルを多次元上の1点と見なす
        •
      ユークリッド距離
        •
      マンハッタン距離
    •様々な距離があり、状況によって適切なものを利用する

        x2                           x2
               x                             x
                    
                         dx2 + dx2
                           1     2
                                                 |dx1 | + |dx2 |
         dx2                          dx2
                            y                             y

                   dx1                           dx1
                                x1                            x1
    (A) 直線距離(ユークリッド(ノルム)距離)               (B) マンハッタン距離
相関係数(correlation coefficient)
 •   点x=(x1, x2,...,xn)と点y=(y1,y2,...,yn)を考える.
 •   点x, y 間の相関係数(Pearson s R)は次式で与えられる
                n
                    i=1 (xi
                       − x)(yi − y )
                         ¯        ¯
     r = n             n
           i=1 (xi − x)2
                     ¯       i=1 (yi − y )2
                                       ¯
 •  2次元上のn点の配置を見ている
  y         y                      y




                x              x                 x
        r≈1             r≈0            r ≈ −1
       正の相関            相関なし            負の相関

 •   距離関数ではない(三角不等式が満たされない)
k-最近点分類法
  (k-最近傍法、
k-Nearest Neighbor)
1-最近点分類
  •最も白と黒が一致する=マンハッタン距離が最も近い
  •最も距離が近い訓練データのクラスを予測とする手法を
  1-最近点分類と呼ぶ

点2の輝度                                          点2の輝度
      B                A                            B               A
                                                                            Eが○なので,
                                   Qに最も近い点はE                                Qを○と予測
           C                                            C
  D                E                            D               E
               Q               G                            Q               G
       F               I                            F               I

                   H                                            H
  K        J               L                    K       J               L
                                    点1の輝度                                       点1の輝度
      (A) 訓練データ                                (B) サンプルのクラス予測



                                                                                   16
K-最近点分類 (K-Nearest Neighbor)
•   属性が似ているサンプルは,クラスも似ている


1. クラスを予測したいテストデータのサンプルをQとする.
2. Qから訓練データ中で最も距離が近いk個のサンプルを選択.
   • 距離空間の選択は任意(後述)
3. そのk点のクラス(○, )を調べ,最も多いクラスをQの予測クラス
   とする.
点2の輝度
                                 点2の輝度                            A
                         A                        B
         B                                                C
                 C
                                             D                    E
    D                    E                            F
             F                        3-NN                    Q           G
                     Q           G           H            J
    H            J                                                    I
                             I
                                              K                   L
     K                   L
                                     点1の輝度                                    点1の輝度
     (A) 訓練データ                               (B) サンプルのクラス予測                      17
K-NNの距離関数やKの決め方
•   距離関数
    •近いピクセル同士の距離を重要視する
    •数字の認識に重要そうな場所を重要視する
    •「重要視」は距離関数としては「重み」をつけることに相
     当
        •
       端の点の輝度が50ずれるのより,中央付近の点の輝度が
       10ずれることを重要視するなど
•   Kの値
    •与えられたデータによって値が変化する
    •今のところ答えはない(なので、えいやっ!と決める)
    •いろいろ実験してみて決める
        •
       手動ではなく,自動で実験するには・・・
        •
       クロスバリデーション。統計的な手法、など。
                                 18

More Related Content

What's hot

人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシンHirotaka Hachiya
 
「リア充」で学ぶ線形計画問題(ver0.5.3)
「リア充」で学ぶ線形計画問題(ver0.5.3)「リア充」で学ぶ線形計画問題(ver0.5.3)
「リア充」で学ぶ線形計画問題(ver0.5.3)Takeshi Nagae
 
東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2hirokazutanaka
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionShintaro Takemura
 
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2hirokazutanaka
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011Preferred Networks
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)Masaya Kaneko
 
パーセプトロン型学習規則
パーセプトロン型学習規則パーセプトロン型学習規則
パーセプトロン型学習規則Shuhei Sowa
 
スプラトゥーン2 × 数学(訂正版)
スプラトゥーン2 × 数学(訂正版)スプラトゥーン2 × 数学(訂正版)
スプラトゥーン2 × 数学(訂正版)Takunology
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric LearningKoji Matsuda
 
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜Takeshi Arabiki
 
Javaプログラミング入門【第5回】
Javaプログラミング入門【第5回】Javaプログラミング入門【第5回】
Javaプログラミング入門【第5回】Yukiko Kato
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル貴之 八木
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1hirokazutanaka
 
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2hirokazutanaka
 
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++sleepy_yoshi
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)Tatsuya Yokota
 
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2hirokazutanaka
 

What's hot (20)

人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン
 
FOBOS
FOBOSFOBOS
FOBOS
 
「リア充」で学ぶ線形計画問題(ver0.5.3)
「リア充」で学ぶ線形計画問題(ver0.5.3)「リア充」で学ぶ線形計画問題(ver0.5.3)
「リア充」で学ぶ線形計画問題(ver0.5.3)
 
東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2東京都市大学 データ解析入門 3 行列分解 2
東京都市大学 データ解析入門 3 行列分解 2
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
 
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
東京都市大学 データ解析入門 9 クラスタリングと分類分析 2
 
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
オンライン凸最適化と線形識別モデル学習の最前線_IBIS2011
 
コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)コンピュータ先端ガイド2巻3章勉強会(SVM)
コンピュータ先端ガイド2巻3章勉強会(SVM)
 
パーセプトロン型学習規則
パーセプトロン型学習規則パーセプトロン型学習規則
パーセプトロン型学習規則
 
スプラトゥーン2 × 数学(訂正版)
スプラトゥーン2 × 数学(訂正版)スプラトゥーン2 × 数学(訂正版)
スプラトゥーン2 × 数学(訂正版)
 
Information-Theoretic Metric Learning
Information-Theoretic Metric LearningInformation-Theoretic Metric Learning
Information-Theoretic Metric Learning
 
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
文字列カーネルによる辞書なしツイート分類 〜文字列カーネル入門〜
 
Javaプログラミング入門【第5回】
Javaプログラミング入門【第5回】Javaプログラミング入門【第5回】
Javaプログラミング入門【第5回】
 
線形識別モデル
線形識別モデル線形識別モデル
線形識別モデル
 
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
東京都市大学 データ解析入門 4 スパース性と圧縮センシング1
 
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
東京都市大学 データ解析入門 7 回帰分析とモデル選択 2
 
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
TokyoNLP#7 きれいなジャイアンのカカカカ☆カーネル法入門-C++
 
20111107 cvim(shirasy)
20111107 cvim(shirasy)20111107 cvim(shirasy)
20111107 cvim(shirasy)
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
 
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
東京都市大学 データ解析入門 5 スパース性と圧縮センシング 2
 

Viewers also liked

Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2ndsesejun
 
Datamining r 4th
Datamining r 4thDatamining r 4th
Datamining r 4thsesejun
 
Datamining r 3rd
Datamining r 3rdDatamining r 3rd
Datamining r 3rdsesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 
bioinfolec_20070706 4th
bioinfolec_20070706 4thbioinfolec_20070706 4th
bioinfolec_20070706 4thsesejun
 
Datamining 3rd Naivebayes
Datamining 3rd NaivebayesDatamining 3rd Naivebayes
Datamining 3rd Naivebayessesejun
 
Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontreesesejun
 
Ohp Seijoen H20 02 Hensu To Kata
Ohp Seijoen H20 02 Hensu To KataOhp Seijoen H20 02 Hensu To Kata
Ohp Seijoen H20 02 Hensu To Katasesejun
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1stsesejun
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboostsesejun
 

Viewers also liked (12)

Datamining r 2nd
Datamining r 2ndDatamining r 2nd
Datamining r 2nd
 
Datamining r 4th
Datamining r 4thDatamining r 4th
Datamining r 4th
 
Datamining r 3rd
Datamining r 3rdDatamining r 3rd
Datamining r 3rd
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 
bioinfolec_20070706 4th
bioinfolec_20070706 4thbioinfolec_20070706 4th
bioinfolec_20070706 4th
 
Datamining 3rd Naivebayes
Datamining 3rd NaivebayesDatamining 3rd Naivebayes
Datamining 3rd Naivebayes
 
Datamining 2nd decisiontree
Datamining 2nd decisiontreeDatamining 2nd decisiontree
Datamining 2nd decisiontree
 
Ohp Seijoen H20 02 Hensu To Kata
Ohp Seijoen H20 02 Hensu To KataOhp Seijoen H20 02 Hensu To Kata
Ohp Seijoen H20 02 Hensu To Kata
 
080806
080806080806
080806
 
Datamining r 1st
Datamining r 1stDatamining r 1st
Datamining r 1st
 
Datamining 4th adaboost
Datamining 4th adaboostDatamining 4th adaboost
Datamining 4th adaboost
 
080806
080806080806
080806
 

Similar to Datamining 5th knn

データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度Seiichi Uchida
 
020 1変数の集計
020 1変数の集計020 1変数の集計
020 1変数の集計t2tarumi
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術Yoshihiro Mizoguchi
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010JAVA DM
 
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Ken Morishita
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルShohei Okada
 
Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data Yuki Nakayama
 
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会Shuyo Nakatani
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdfkeiodig
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能Hiroshi Nakagawa
 
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model AdaptationACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptationsleepy_yoshi
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1hirokazutanaka
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)ryotat
 
Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会Shuyo Nakatani
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法Satoshi Hara
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習Hirotaka Hachiya
 

Similar to Datamining 5th knn (20)

データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度データサイエンス概論第一=2-1 データ間の距離と類似度
データサイエンス概論第一=2-1 データ間の距離と類似度
 
020 1変数の集計
020 1変数の集計020 1変数の集計
020 1変数の集計
 
NIPS 2010 読む会
NIPS 2010 読む会NIPS 2010 読む会
NIPS 2010 読む会
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
お披露目会05/2010
お披露目会05/2010お披露目会05/2010
お披露目会05/2010
 
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
 
PRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデルPRML勉強会@長岡 第4章線形識別モデル
PRML勉強会@長岡 第4章線形識別モデル
 
Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data Appendix document of Chapter 6 for Mining Text Data
Appendix document of Chapter 6 for Mining Text Data
 
Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会Infinite SVM [改] - ICML 2011 読み会
Infinite SVM [改] - ICML 2011 読み会
 
6 Info Theory
6 Info Theory6 Info Theory
6 Info Theory
 
第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf第8回スキル養成講座講義資料.pdf
第8回スキル養成講座講義資料.pdf
 
クラシックな機械学習の入門 4. 学習データと予測性能
クラシックな機械学習の入門  4.   学習データと予測性能クラシックな機械学習の入門  4.   学習データと予測性能
クラシックな機械学習の入門 4. 学習データと予測性能
 
ACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model AdaptationACL2011読み会: Query Weighting for Ranking Model Adaptation
ACL2011読み会: Query Weighting for Ranking Model Adaptation
 
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
東京都市大学 データ解析入門 8 クラスタリングと分類分析 1
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
行列およびテンソルデータに対する機械学習(数理助教の会 2011/11/28)
 
Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会Infinite SVM - ICML 2011 読み会
Infinite SVM - ICML 2011 読み会
 
アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法アンサンブル木モデル解釈のためのモデル簡略化法
アンサンブル木モデル解釈のためのモデル簡略化法
 
データ解析1 ベクトルの復習
データ解析1 ベクトルの復習データ解析1 ベクトルの復習
データ解析1 ベクトルの復習
 

More from sesejun

RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Reviewsesejun
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析sesejun
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習sesejun
 
20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pubsesejun
 
20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pubsesejun
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pubsesejun
 
20110214nips2010 read
20110214nips2010 read20110214nips2010 read
20110214nips2010 readsesejun
 
Datamining 9th association_rule.key
Datamining 9th association_rule.keyDatamining 9th association_rule.key
Datamining 9th association_rule.keysesejun
 
Datamining 8th hclustering
Datamining 8th hclusteringDatamining 8th hclustering
Datamining 8th hclusteringsesejun
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svmsesejun
 
Datamining 3rd naivebayes
Datamining 3rd naivebayesDatamining 3rd naivebayes
Datamining 3rd naivebayessesejun
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeanssesejun
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfrasesejun
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rulesesejun
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclusteringsesejun
 
Datamining 7th Kmeans
Datamining 7th KmeansDatamining 7th Kmeans
Datamining 7th Kmeanssesejun
 
Datamining R 4th
Datamining R 4thDatamining R 4th
Datamining R 4thsesejun
 
Datamining 6th Svm
Datamining 6th SvmDatamining 6th Svm
Datamining 6th Svmsesejun
 
Datamining 4th Adaboost
Datamining 4th AdaboostDatamining 4th Adaboost
Datamining 4th Adaboostsesejun
 

More from sesejun (20)

RNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A ReviewRNAseqによる変動遺伝子抽出の統計: A Review
RNAseqによる変動遺伝子抽出の統計: A Review
 
バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析バイオインフォマティクスによる遺伝子発現解析
バイオインフォマティクスによる遺伝子発現解析
 
次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習次世代シーケンサが求める機械学習
次世代シーケンサが求める機械学習
 
20110602labseminar pub
20110602labseminar pub20110602labseminar pub
20110602labseminar pub
 
20110524zurichngs 2nd pub
20110524zurichngs 2nd pub20110524zurichngs 2nd pub
20110524zurichngs 2nd pub
 
20110524zurichngs 1st pub
20110524zurichngs 1st pub20110524zurichngs 1st pub
20110524zurichngs 1st pub
 
20110214nips2010 read
20110214nips2010 read20110214nips2010 read
20110214nips2010 read
 
Datamining 9th association_rule.key
Datamining 9th association_rule.keyDatamining 9th association_rule.key
Datamining 9th association_rule.key
 
Datamining 8th hclustering
Datamining 8th hclusteringDatamining 8th hclustering
Datamining 8th hclustering
 
Datamining 6th svm
Datamining 6th svmDatamining 6th svm
Datamining 6th svm
 
Datamining 3rd naivebayes
Datamining 3rd naivebayesDatamining 3rd naivebayes
Datamining 3rd naivebayes
 
Datamining 7th kmeans
Datamining 7th kmeansDatamining 7th kmeans
Datamining 7th kmeans
 
100401 Bioinfoinfra
100401 Bioinfoinfra100401 Bioinfoinfra
100401 Bioinfoinfra
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 
Datamining 9th Association Rule
Datamining 9th Association RuleDatamining 9th Association Rule
Datamining 9th Association Rule
 
Datamining 8th Hclustering
Datamining 8th HclusteringDatamining 8th Hclustering
Datamining 8th Hclustering
 
Datamining 7th Kmeans
Datamining 7th KmeansDatamining 7th Kmeans
Datamining 7th Kmeans
 
Datamining R 4th
Datamining R 4thDatamining R 4th
Datamining R 4th
 
Datamining 6th Svm
Datamining 6th SvmDatamining 6th Svm
Datamining 6th Svm
 
Datamining 4th Adaboost
Datamining 4th AdaboostDatamining 4th Adaboost
Datamining 4th Adaboost
 

Recently uploaded

答えのないコンセンサスゲーム「無人島での出来事」運営用パワーポイントスライド説明資料
答えのないコンセンサスゲーム「無人島での出来事」運営用パワーポイントスライド説明資料答えのないコンセンサスゲーム「無人島での出来事」運営用パワーポイントスライド説明資料
答えのないコンセンサスゲーム「無人島での出来事」運営用パワーポイントスライド説明資料Jun Chiba
 
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店ssuserfb441f
 
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)KayaSuetake1
 
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチUP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチユニパー株式会社
 
Service-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipService-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipYasuyoshi Minehisa
 
20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdfssuser80a51f
 
コダワリ抜いた経営指南書(概要版) - コダワリ・ビジネス・コンサルティング株式会社
コダワリ抜いた経営指南書(概要版) - コダワリ・ビジネス・コンサルティング株式会社コダワリ抜いた経営指南書(概要版) - コダワリ・ビジネス・コンサルティング株式会社
コダワリ抜いた経営指南書(概要版) - コダワリ・ビジネス・コンサルティング株式会社hmoriyama
 
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ 株式会社
 
ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdf
ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdfストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdf
ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdfmasakisaito12
 

Recently uploaded (11)

答えのないコンセンサスゲーム「無人島での出来事」運営用パワーポイントスライド説明資料
答えのないコンセンサスゲーム「無人島での出来事」運営用パワーポイントスライド説明資料答えのないコンセンサスゲーム「無人島での出来事」運営用パワーポイントスライド説明資料
答えのないコンセンサスゲーム「無人島での出来事」運営用パワーポイントスライド説明資料
 
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店
株式会社MAVEL会社概要_アフィリエイト広告_運用型広告_LTVを予測しLOIを最適化する広告代理店
 
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
202405_VISIONARYJAPAN_engineerteam_entrancebook(ver2.1)
 
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチUP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
UP103シリーズ パワーコメット ユニパー スライドレールタイプ 瓦揚げ機 ウインチ
 
Service-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadershipService-introduction-materials-misorae-leadership
Service-introduction-materials-misorae-leadership
 
company profile
company profilecompany profile
company profile
 
20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf20240427 zaim academy counseling lesson .pdf
20240427 zaim academy counseling lesson .pdf
 
コダワリ抜いた経営指南書(概要版) - コダワリ・ビジネス・コンサルティング株式会社
コダワリ抜いた経営指南書(概要版) - コダワリ・ビジネス・コンサルティング株式会社コダワリ抜いた経営指南書(概要版) - コダワリ・ビジネス・コンサルティング株式会社
コダワリ抜いた経営指南書(概要版) - コダワリ・ビジネス・コンサルティング株式会社
 
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
シンフォニティ株式会社(SYMPHONITY , Inc.) 会社説明・人材採用資料
 
ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdf
ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdfストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdf
ストックマーク株式会社がお客様へご提供しているAnews概要資料のご共有.pdf
 
KestrelPro Flyer Japan IT Week 2024 (Japanese)
KestrelPro Flyer Japan IT Week 2024 (Japanese)KestrelPro Flyer Japan IT Week 2024 (Japanese)
KestrelPro Flyer Japan IT Week 2024 (Japanese)
 

Datamining 5th knn

  • 1. データマイニング クラス分類(IV) - 手書き文字データの説明 k-NN 瀬々 潤 sesejun@is.ocha.ac.jp
  • 3. 先週までの話 • クラス分類問題を扱ってきた • 例題として、コンタクトレンズを処方するか、し ないかのデータ • 手法として扱ってきた物 •決定木 •NaiveBayes •AdaBoost • テスト(属性)が、離散値(例題では2値)で表さ れるもののみ扱った
  • 4. 数字判別の流れ 172 ¨ D. DECOSTE AND B. SCHOLKOPF 画像 文字判別で利用する 形式に変換 この授業ではこちらに注力 文字の判別 Figure 2. The first 100 USPS training images, with class labels. (1993) used an enlarged training set of size 9709, containing some additional machine- printed digits, and note that this improves the accuracy on the test set. Similarly, Bot- tou and Vapnik (1992) used a training set of size 9840. Since there are no machine- 4
  • 5. 数字画像をデータへ変換 • 画像データを数値に変換します •今回利用するUSPSの画像データは,256階調(8bit)の 白黒画像 • ラスタ画像(ベクタ画像ではない) • 各ドットが1つの値(輝度)を持つ •縦,横それぞれ16ドット=256ドット • 256次元のデータ • 文字の書き順や,どちらの方向に向かって線を引いたか, と言った情報は,利用できないものとします. 黒っぽい 比較的白っぽい クラス 0,0 0,1 0,2 0,3 0,4 … 15,12 15,13 15,14 15,15 2 46 0 22 0 46 … 106 188 138 0 5
  • 6. 問題例(1/3): 名称 クラス 属性(アトリビュート,カラム) (ラベル) ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 1 2 46 0 22 0 … 138 0 サンプル 2 1 0 59 13 0 … 13 42 (トランザク 3 8 0 46 56 50 … 42 0 ション、 タップル、 … … … … … … … … … レコード) ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 100 ? 59 13 0 28 … 13 42 … … … … … … … … … • 今回は属性の名称としてドットの位置が入っています 6
  • 7. 問題例(2/3): 訓練とテスト 訓練データ(Training Data): 各サンプルのクラスが分かっている ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 1 2 46 0 22 0 … 138 0 2 1 0 59 13 0 … 13 42 3 8 0 46 56 50 … 42 0 … … … … … … … … … テストデータ(Test Data): 各サンプルのクラスが不明 ID クラス 0,0 0,1 0,2 0,3 … 15,14 15,15 100 ? 59 13 0 28 … 13 42 … … … … … … … … … 7
  • 8. 問題例(3/3): 問題設定 • 訓練データとテストデータが与えられたとき、テスト データのクラスを予測せよ。 •今回の文字の例では、予め数字の分かっている文字 画像が与えられている(訓練データ) •新しい文字が与えられた時(テストデータ)、その 文字に何の数字が書かれているかを予測する • 画像の問題と言っても、結局クラス分類問題になる 8
  • 9. この授業で用いるデータ • USPSの数字データ • http://www.cs.toronto.edu/ roweis/data.html • 0から9の数字それぞれ1,100個 • 1,000個を訓練データ,100個をテストデータとして扱う • 全体で10,000個の訓練データ,1,000個のテストデータ • このままだと,データがとても大きいので,1,000個の訓練 データと100個のテストデータのバージョンも配布します • 画像はすでに,数値に変換をしたものを配布します • クラス分類問題だけでなく、クラスタリングでもこのデータを 利用します 9
  • 10. クラス分類問題 • データは訓練データとテストデータに分かれている • テストデータのクラスを予測をする問題 • 数字の例では、訓練データが256次元。 訓練データ モデル を作成 予測 テストデータ モデルの適用 10
  • 11. 多クラスのクラス分類 • 多くのクラス分類アルゴリズムは,2個のクラス(○ or  あ るいは,1 or -1 )を分類する用に作成されている • 数字を当てる問題は,0∼9まで9つ種類があり,実際にはとても 難しい問題 •多クラスのクラス分類問題と呼ばれる •因に,数値を当てる問題は,回帰問題(regression)と呼ばれる • この授業では簡単のため,数値を当てる問題を「0か,それ以 外」か「1か,それ以外か」といった問題に変更して解く •簡単に多クラスに拡張できるアルゴリズムは,本授業内でも, 多クラスで話を進める 11
  • 12. 画像の距離 • 2つの画像の距離を測りたい。 •どの画像が似ているのか、違っているのか。 • 一例として、マンハッタン距離: •点と点を軸に添って測った距離の和 x2 x |dx1 | + |dx2 | dx2 (A) (C) y (A) 0001111001110010...100 dx1 (C) 0001110000110010...100 x1 多次元ベクトル(上記の図は64次元) 実数でも計算可能(値の差の絶対値を取れば良い) この後の例ではグレースケール(白,黒だけでなく, その中間色もある)で話を進める 12
  • 13. 様々な距離 • 実数値のデータの距離 •それぞれのサンプルを多次元上の1点と見なす • ユークリッド距離 • マンハッタン距離 •様々な距離があり、状況によって適切なものを利用する x2 x2 x x dx2 + dx2 1 2 |dx1 | + |dx2 | dx2 dx2 y y dx1 dx1 x1 x1 (A) 直線距離(ユークリッド(ノルム)距離) (B) マンハッタン距離
  • 14. 相関係数(correlation coefficient) • 点x=(x1, x2,...,xn)と点y=(y1,y2,...,yn)を考える. • 点x, y 間の相関係数(Pearson s R)は次式で与えられる n i=1 (xi − x)(yi − y ) ¯ ¯ r = n n i=1 (xi − x)2 ¯ i=1 (yi − y )2 ¯ • 2次元上のn点の配置を見ている y y y x x x r≈1 r≈0 r ≈ −1 正の相関 相関なし 負の相関 • 距離関数ではない(三角不等式が満たされない)
  • 16. 1-最近点分類 •最も白と黒が一致する=マンハッタン距離が最も近い •最も距離が近い訓練データのクラスを予測とする手法を 1-最近点分類と呼ぶ 点2の輝度 点2の輝度 B A B A Eが○なので, Qに最も近い点はE Qを○と予測 C C D E D E Q G Q G F I F I H H K J L K J L 点1の輝度 点1の輝度 (A) 訓練データ (B) サンプルのクラス予測 16
  • 17. K-最近点分類 (K-Nearest Neighbor) • 属性が似ているサンプルは,クラスも似ている 1. クラスを予測したいテストデータのサンプルをQとする. 2. Qから訓練データ中で最も距離が近いk個のサンプルを選択. • 距離空間の選択は任意(後述) 3. そのk点のクラス(○, )を調べ,最も多いクラスをQの予測クラス とする. 点2の輝度 点2の輝度 A A B B C C D E D E F F 3-NN Q G Q G H J H J I I K L K L 点1の輝度 点1の輝度 (A) 訓練データ (B) サンプルのクラス予測 17
  • 18. K-NNの距離関数やKの決め方 • 距離関数 •近いピクセル同士の距離を重要視する •数字の認識に重要そうな場所を重要視する •「重要視」は距離関数としては「重み」をつけることに相 当 • 端の点の輝度が50ずれるのより,中央付近の点の輝度が 10ずれることを重要視するなど • Kの値 •与えられたデータによって値が変化する •今のところ答えはない(なので、えいやっ!と決める) •いろいろ実験してみて決める • 手動ではなく,自動で実験するには・・・ • クロスバリデーション。統計的な手法、など。 18