Topics in aipy the first
- 4. 3
機械学習におけるデータの取り扱い方
基本的な考え方
Aipy輪読会 第1回
データセット
学習データ 評価データ
構築データ 検証用
①未知のデータへの評価のために学習データと
評価データに分ける
②パラメータをチューニングするために学習
データをさらに分割し、モデル構築用デー
タとモデル検証用データをつくる
③分割したデータを使ってよさそうなパラ
メータをみつける
データは基本的に「学習データ」と「評価データ」にわける
ハイパーパラメータの
✓ チューニングが必要なければ、「学習データ」「評価データ」でよい
✓ チューニングが必要な時は、「学習データ」を「構築データ」と「検証用」に分ける
- 9. 8
混同行列:正解率だけだとまずい
がん検診の結果、患者10,000人の診断結果の混合行列を考える。
この場合、正解率は (60+9760) / (60+140+40+9760) = 98.2% と高い正解率になるが、
✓ 100人の癌の方のうち40%は「癌ではないだろう」と誤診 ※再現率は60/(60+40)=40%
✓ 癌と予想した方が実際に癌である確率は、30%程度 ※適合率は60/(60+140)=30%
という問題がある。これは、 患者のほとんどが癌ではない ことによるもので、データに偏りがある状
態で「正解率」という指標を使うのは非常に危険である。
Aipy輪読会 第1回
癌:予想 癌ではない:予想
癌:実際 60 40
癌ではない:実際 140 9760
正解率だけではなく、再現率、適合率も確認しないと
正しい判断はできないね、という話