Topics in aipy the first

1
輪読会の中での疑問点を整理
 ハイパーパラメータ
 機械学習におけるデータの取り扱い方
 ダミー変数
 正則化
 混同行列
Aipy輪読会第1回

2
ハイパーパラメータ
 ハイパーパラメータ
機械学習における学習過では決められない、人が調整しなければならないパラメータのこと。
※モデルは多くのパラメーターを持っており、そのパラメータはモデルごとに異なる
 チューニング
ハイパーパラメーターを調整すること。直接、値をモデルに入力したり、あるいは、ハイパーパラメーターの
値の範囲を指定することで最適な値を探してもらう方法がある。
scikit-learnではモデルの構築時にパラメーターに値を入力することでパラメーターのチューニングが可能。
パラメーターを入力しなかった場合、モデルごとに定められているパラメーターの初期値がそのまま値として
指定される。

3
機械学習におけるデータの取り扱い方
 基本的な考え方
データセット
学習データ評価データ
構築データ検証用
①未知のデータへの評価のために学習データと
評価データに分ける
②パラメータをチューニングするために学習
データをさらに分割し、モデル構築用デー
タとモデル検証用データをつくる
③分割したデータを使ってよさそうなパラ
メータをみつける
データは基本的に「学習データ」と「評価データ」にわける
ハイパーパラメータの
✓ チューニングが必要なければ、「学習データ」「評価データ」でよい
✓ チューニングが必要な時は、「学習データ」を「構築データ」と「検証用」に分ける

4
機械学習におけるデータの取り扱い方
 どうやってよいパラメータを見つけるか？
データセット
学習データ評価データ
構築データ検証用
構築データでの
精度
検証データでの
精度
両方の精度の乖離が小さく、
検証データの精度がよいパラ
メータを選ぶ
構築
データ
検証
データ
モデルの複雑さ
精
度
データの分割方法には、
①ホールドアウト法
②クロスバリデーション
などがある

5
ダミー変数
カテゴリ変数を表現する方法として、よく用いられる手法。ワンホットエンコーディングともいう。
カテゴリ変数を1つ以上の0と1の値を持つ新しい特徴量で置き換える。
↑日本語の説明よりも↓の具体例が分かりやすいと思います。
動物名
らくだ
ぞう
ねこ
うさぎ
いぬ
らくだ
ねこ
いのしし
らくだぞうねこうさぎいぬいのしし
1 0 0 0 0 0
0 1 0 0 0 0
0 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 1 0
1 0 0 0 0 0
0 0 1 0 0 0
0 0 0 0 0 1

6
正則化
過学習を防ぐために取られるアプローチが汎化である。線形回帰では、汎化手法として正則化が用い
られる。
正則化とは、回帰分析を行うモデルに対し、モデルが推定したデータ同士の関係性の複雑さに対し
てペナルティを加えることによってモデルが推定するデータ同士の関係性を一般化しようとするアプ
ローチ。正則化にはL1正則化とL2正則化の２つがある。
✓ L1正則化
「予測したいデータに対する寄与が薄いデータ」や「他の予測に用いられるデータとの関係性が強
いデータ」の正則化に向いている。これらを回帰分析の際に結果に対する寄与が小さくなるように
係数を小さくする方法。
✓ L2正則化
予測に用いるデータの範囲を算出し、データの範囲を揃えるようにデータに対する係数を小さくすることに
よって回帰分析のモデルの一般化を図ろうとする方法。データの範囲とは、データが取りうる数値の範囲
のことで、揃える場合は大抵は0から1の範囲になるように調整される。データの範囲を揃えることによっ
て同じ尺度で全てのデータの予測に対する寄与が比較可能になり、滑らかなモデルを得やすい（汎化しや
すい）という特徴がある。

7
混同行列
混同行列とは各テストデータに対するモデルの予測結果を、真陽性(True Positive)、真陰性(True Negative)、
偽陽性(False Positive)、偽陰性(False Negative)の4つの観点で分類をし、それぞれに当てはまる予測結果の個
数をまとめた表です。
用語がややこしいので、図にしてみると、↓
予想
現
実
〇と予想 ×と予想
〇
×
① ②
③ ④
は予想が的中してるもの
このとき、次のように定義します。
 正解率：全体の中のあっている割合
= (①＋②）/ （① + ② + ③ + ④）
 適合率：〇と予想した中で、実際に〇の割合
＝ ① / （① + ③）
 再現率：〇のデータの中で、〇と予想できた割合
= ① / （① + ②）

8
混同行列：正解率だけだとまずい
がん検診の結果、患者10,000人の診断結果の混合行列を考える。
この場合、正解率は (60+9760) / (60+140+40+9760) = 98.2% と高い正解率になるが、
✓ 100人の癌の方のうち40％は「癌ではないだろう」と誤診 ※再現率は60/(60+40)=40%
✓ 癌と予想した方が実際に癌である確率は、30％程度 ※適合率は60/(60+140)=30%
という問題がある。これは、患者のほとんどが癌ではないことによるもので、データに偏りがある状
態で「正解率」という指標を使うのは非常に危険である。
癌：予想癌ではない：予想
癌：実際 60 40
癌ではない：実際 140 9760
正解率だけではなく、再現率、適合率も確認しないと
正しい判断はできないね、という話

Topics in aipy the first

Recommended

Recommended

More Related Content

Recently uploaded

Recently uploaded (7)

Featured

Featured (20)

Topics in aipy the first