古典的見解を越えたオーバーフィッティングの先の世界

古典的見解を越えた
オーバーフィッティングの先の世界
Reconciling modern machine-learning practice
and the classical bias–variance trade-off

自己紹介
● 名前: 西岡賢一郎
● 経歴:
○ 東京大学大学院在籍中に研究者仲間とデータサイエンスをベースにサービスを提供す
る会社であるトライディアを創業
○ トライディアを6年ほど経営したのち売却
○ 現在、別会社のCTOとして働く
● その他
○ 博士 (学術)
○ 趣味は筋トレや旅行

論文情報
● タイトル：
Reconciling modern machine-learning practice and the classical bias-
variance trade-off
● 著者：Mikhail Belkin et al.
● 掲載誌：PNAS
● 出版年：2019
● 引用数：424（google scholar, 2021/04/02時点）
● 「バイアスとバリアンスのジレンマ」に対して、最近の機械学習で実験的に
違う説が出ていることを紹介している論文

機械学習 (教師あり学習) とは？
(説明変数)から (従属変数)を出力する予測器を、学習データ内の誤差を最小化するプ
ロセスを通じて見つけること。

学習データで最適化することの限界
本質的なハードル：学習データは真の世界のデータの一部に過ぎない
● 本当に最小化したいのは、真の誤差（）だが、
● 直接的に小さくできるのは、学習データ内の誤差（）。
※） = 予測値と実際の誤差

良い予測とはなにか？
● 古典的な見解 → biasとvarianceのトレードオフを解くちょうどいい複雑さを
見つけろ！
● 最近の実践 → 複雑なモデルほど、真の誤差も小さく出来ていそう！

良い予測器とは？: 古典的見解
● bias-varianceトレードオフ
○ モデルに複雑さが足りないと、アンダ
ーフィット（高bias）
○ モデルが複雑すぎると、オーバーフィ
ット（高variance）
● ちょうど良い複雑さのモデルを見
つける
○ 学習データでの誤差がゼロになるのは
やりすぎで、過学習に陥る。
※）図は論文より改変

良い予測機とは？: 最近の実践
● ディープラーニングでのベストプラクティスは、学習データ内での誤差をゼ
ロにできる程度の複雑さ。
○ 学習データ内での誤差がゼロ＝ “Interpolation”
○ 複雑なモデルを選択して、interpolationを達成した方が、新しいデータに対する性能も良く
なる！

「古典的見解」と「最近の実践」を調和させる
● 真の誤差は、モデルの複雑さを上げるにつれて2回下り坂がある。
○ Interpolationの達成後もモデルの複雑さをあげて行くことで、性能が上がる。
○ “Double descent”
※）図は論文より改変

Double Descentがなぜ起こるのか？
● 学習データを完璧に説明可能なモデルの中で、よりスムーズな関数を
選べている。（※ 適切なinductive biasを課しながら探索できれば）
● 一種のオッカムの剃刀（＝「観察データに合致する最も単純な説明を
選べ」）の実践。

まとめ
● 「Reconciling modern machine-learning practice and the classical bias-
variance trade-off」を紹介
● 「どの程度複雑なモデルが最良か」という古典的な見解と最近の実践を
Double Descent カーブによって説明
● 残る重要な課題: よりスムーズなモデルを探索するための適切な“inductive
bias”とは何か
● 実用的には、より複雑なモデルも意外に有望なので、検討すべき。

古典的見解を越えたオーバーフィッティングの先の世界

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 古典的見解を越えたオーバーフィッティングの先の世界

Similar to 古典的見解を越えたオーバーフィッティングの先の世界 (7)

More from 西岡賢一郎

More from 西岡賢一郎 (20)

Recently uploaded

Recently uploaded (14)