Useful Overfitting pattern

Machine Learning Design Patterns
Design
Pattern 11:
Useful
Overfitting
hei4
図は以下から引用：
Lakshmanan, Valliappa, Sara Robinson, and Michael Munn.
Machine learning design patterns. " O'Reilly Media, Inc.", 2020.

Problem
• 一般的な機械学習の目的は、新しい未知のデータに対して信頼性の高い予測
を行うこと。そのために過適合（overfitting）を避けることが推奨される
• 物理や力学系のシミュレーションをアプリケーションに適用するには計算時間がかか
る場合、シミュレーション結果を機械学習で近似する方法が考えられる
• シミュレーションの入力とシミュレーション結果のデータセットを学習するとき、データ
セットを訓練と検証セットに分割すると、入力空間の一部だけをモデルに学習させ
るためシミュレーションの精度よい近似には逆効果となる
• このようなシナリオは、一般的な機械学習のパラダイムと異なっている

Problem
物理現象の観測
観測に基づいた
モデル化
シミュレーション入力入力に対するシミュレーション結果
シミュレーション入力と
シミュレーション結果の
データセット
シミュレーションの高速な近似

Solution
• データを分割せず、学習データに機械学習モデルをできるだけ完全に適合させる
• 機械学習モデルが損失関数がゼロになるようなパラメータセットを学習することがで
きれば、そのパラメータセットを使ってシミュレーション結果を表現できる
機械学習モデル
例）ニューラルネット
シミュレーションモデル
例）偏微分方程式
シミュレーション結果と
機械学習モデルの予測値
で損失値を計算

Why It Works
• Useful Overfitting パターンを適用できる条件：
• シミュレーションにノイズがなく出力が一意に定まること（＝決定論的）
• すべてのシミュレーション入力を網羅したデータセットを使えること
データセットの
インスタンス
機械学習モデル
シミュレーションモデル
すべての可能な
入力が網羅されていれば、
過適合なモデルでも
真のモデルと同じ予測になる
入力が網羅されていれば、
過適合なモデルは
データセットの内挿に等しい

Trade-Offs and Alternatives (1)
Interpolation and chaos theory Monte Carlo methods
• Useful Overfitting パターンにおける機械学
習モデルは、データセットであるルックアップテーブ
ルの近似として機能する。ルックアップテーブルで
充分なら、ルックアップテーブルを使ったほうがよい
• シミュレーションがカオス系*である場合は、ルック
アップテーブルの分解能をある閾値以下にして、
機械学習モデルで短期予測を近似する
*カオス系では、システムが決定論的であっても初期条件のわずかな違いが劇的に異なる結
果につながる可能性がある
サンプリング
された点
• 入力空間を網羅できないときはサンプリングする
• 複雑度の低いモデルや弱い正則化を使うと、サ
ンプリングされていない点の過適合を回避できる
サンプリング
されていない点
真の値
モデル予測値

Data-driven discretizations Unbounded domains
• 偏微分方程式は有限差分法で数値解を求め
ることが一般的だが、次元が大きいときにグリッド
サイズを小さくすると爆発的に計算量が増大する
• 機械学習を使ってサンプリングポイントを選択す
る『データ駆動型離散化』の有効性を示した研
究事例が存在する*
* Bar-Sinai, Yohai, et al. "Learning data-driven discretizations for partial differential equations."
Proceedings of the National Academy of Sciences 116.31 (2019): 15344-15349.
• 領域に制約のない関数を扱う場合など、入力空
間を網羅することが難しい場合は、過学習、学
習不足、汎化誤差などを考慮することが重要と
なる
事例）ディープ・ガラーキン法
サンプリングが十分に行われた領域では良好な結果
が得られるが、サンプリングされなかった領域ではうまく
汎化されない

Distilling knowledge of neural network Overfitting a batch
• 大規模モデルの複雑さが必要ない問題でも、小
規模モデルでは知識を効率的に学習するのに十
分な容量を持っていない場合がある
• 大規模モデルのソフト出力で小規模モデルを学
習する蒸留（Distillation）において、Useful
Overfitting パターンが有効
• 実際は、多くのハイパーパラメータについて繰り返
し実験する必要がある
• 複雑なモデルは小さなバッチサイズでも過適合で
きる。複雑なモデルを小さなバッチサイズで訓練し、
過適合できるか確認することは、モデルのコード、
データ入力パイプライン、単純なバグについて確
認する有効なテクニック

Useful Overfitting パターン
どんなメリットがある？
• 物理シミュレーションや力学系のシミュレーション結果
を機械学習モデルで近似して高速に出力する
どうやって解決する？
• データセットを訓練と検証に分割せず、機械学習モ
デルを学習データにできるだけ完全に適合させる
どんなときに使う？
• シミュレーションシステムにノイズが存在せず、入力か
ら決定論的に出力が決定され、かつ、シミュレーショ
ンの入力空間を網羅的に使ってデータセットを作成
できるとき
トレードオフや関連手法はある？
• 関連手法：入力空間から疎にサンプリングする代わ
りに、複雑度の低いモデルと弱い正則化を使う
• 関連手法：大規模モデルから小規模モデルへ蒸留

Useful Overfitting pattern

Recommended

Recommended

More Related Content

More from yohei okawa

More from yohei okawa (10)

Recently uploaded

Recently uploaded (11)

Useful Overfitting pattern