5. 背景
5
(1). Boosting: where the coeffcients associated with the combinations of the
single models are actually trained, instead of simply taking average;
(2). Bootstrapping/Bagging: the training data are different for each single model;
(3). Ensemble of models of different types and architectures;
(4). Ensemble of random features or decision trees.
■アンサンブルの理論解析
• いくつかの状況設定で理論解析はあるが、単純平均のアンサンブルにおける理論解析がない
単純平均のアンサンブル学習の理論解析に着目
■単純平均のアンサンブル学習の理論解析
• 初期化乱数のみ異なるモデル(学習データ、学習率、アーキテクチャ固定)における以下の現
象を
理論的に説明することを試みる
Training average does not work: 学習前にモデルをアンサンブルしても効果
なし
Knowledge distillation works:単一モデルに複数モデルから蒸留できる
Self-distillation works:単一モデルから別の単一モデルへの蒸留でも性能が向上