3. ● private test datasetに擬似ラベルを付与し、追加の訓練データとして利用することで private
test datasetに対する汎化性能を向上させる試みがある (pseudo-labelingと呼ばれる)
a. Devデータでモデル1を作る
b. モデル1を使ってTestデータに対して推論を行い、確信度の高いデータに対して擬似ラベル を
割り振る
c. Devデータと上記で作った擬似ラベル付き Testデータを混ぜて新しいモデル 2を作る
d. モデル2を使ってTestデータの推論を行う
● 真のラベルを利用してないのに何で汎化性能が上がるのか?
self-trainingの例:
kaggleでしばしば見かける、semi-supervised learning的な方法