12. 検索対象のデータと test データの類似度の影響
test sentence と training corpus (検索対象のデータ)の類似度を ↓とする。
この test sentence を corpus 全体にしたのが次の式。
この類似度尺度を用いて test set を半分にした。(高い方 : half-H、低い方: half-L)
12
↓各カラムの上がり幅に注目 ↓
13. WMT の設定だったらどうなん?
A. 有意な改善はなかった。
↑ training set と test set が全然似てないからしんどいので。
13
← 各 test sentence について類似度を図ったもの。
WMT (En-De) の方が、学習データに対して類似度の
低い test sentence が多い。