SlideShare a Scribd company logo
NLP2022 Workshop
NLPにおける再現性
東北大学 データ駆動科学・AI教育研究センター
鈴木 潤
2022.03.18
1
l 話題
l DNN手法の再現が難しい問題
l SOTAとの比較問題
l モデル選択
• Testset-tuning
l Random Seed
2
[注意事項]
1. 現時点でわかっている範囲での解釈なので,今
後の研究成果によっては,ここで話したやり方
がよくない可能性があると思います.
2. 個人的な意見を含むので,異論は普通にありえ
ます.あくまで一つの観点からの参考意見とい
う位置づけで聞いてほしいと思います.
3. 与えられた状況の中で最善を目指して試行錯誤
している途中の現時点のやり方になります.
3
l DNN手法の再現が難しい問題
4
DNNの学習の再現性
l 比較:SVM
l 制約付き凸関数
l 大域的最適解
l 使うツールが違っても
えられる解は大体同じ
l ハイパラは基本一つ
l DNN
l 複雑な非凸関数
l 局所解がたくさんある
l ツールが違うと結果が変
わる可能性
l ハイパラたくさん
5
多くの理由で再現しない
l Random Seed
l GPU
l Library version
l Driver version
l 並列処理
l ...
6
多くの理由で再現しない
l Random Seed
https://arxiv.org/abs/2109.08203
https://arxiv.org/abs/2002.06305
7
多くの理由で再現しない
l GPU
https://arxiv.org/abs/2106.11872
8
多くの理由で再現しない
l 並列処理
l GPUは非同期で並列処理をしている (場合が多い) の
で計算結果が毎回変わる可能性がある
l そもそも学習したモデルが局所解まで到達して
ないのでは疑惑?
l => (学習問題としては) 何を学習したのだろう?
9
DNNの学習の再現性
l 無理でしょ...
l 再現しないものに対して再現を求められても
ねぇ...
l 自分ではどうにもできないことは一旦諦める
10
どうすればよい?
l 「ちゃんとやっているよ感」が大事 (多分)
l なるべく条件をしっかり書く
• AppendixでOK
• 可読な設定ファイルをsupplementary materialとしてつけ
てくれてもOK
l Rebuttal 時の根拠
• 査読者が言っていることが正しそうか
vs 著者が言っていることが正しそうか
• Meta-reviewer を味方につけたい
=> でも reviewer 見てないし...
=> でも meta-reviewer も見てないし...fin.
11
従来法が再現しない場合
l 重要な比較手法は手元の実験設定で追実験をす
る (方が良いとおもっている...)
l 様々な理由で基本論文の値は再現しないことを前提
• 公平な比較をするために同じ環境で比較したい
l 論文の報告値と再現実験の値を両方載せる
• Appendixでもよい
l 再現しない理由をかく
12
l SOTAとの比較問題
13
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
14
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l ? みんなSOTA手法が大好きだから!
l ? NLPは応用よりの分野だから結果が全て!
l ? SOTA手法に勝たないと論文通らないから!
現在のACL系の査読規定で
は,「SOTAと比べてない
から落とすわ!」という
reviewはダメレビュー扱い
https://aclrollingreview.org/reviewertutorial#6-check-for-lazy-thinking
15
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l 性能が向上する理由は排他的ではない
l => 提案する方法論が解決したい問題は実は既に解決
されている可能性がある
俺様の手法がSOTA!
提案法が主張する効果がこれまでにまだ
得られていないことを示す (ために「いま一
番イケていると思われる方法」と比べて効果があるこ
とを示す)
Þ たまたま比較手法 (○○法) がいま一番良
い結果をだしていたから一番よい結果に
なった,ぐらいの気持ち
16
SOTAとの比較問題
l (何かの手法を提案する際に) なぜSOTA手法と
比較しなくてはいけないのか?
l => しなくてもいいよね
• 言い方 (書き方) 問題
提案法により
△△ベンチマークデータ
の性能が向上した
比較手法である従来法 (○○法)
では xx の課題があるが,提案
法によりその課題を解決(軽
減)することで△△ベンチマー
クデータの性能が向上した
めちゃくちゃ強い主張ではないかもしれないが
これで十分論文は採録されるチャンスはある
17
l モデル選択
18
モデル選択
l 開発データを使う l 一定回数まわす
このモデルを取る?
このモデルを取る?
学習のロス
開発データの性能
19
モデル選択
l 開発データによるモデル選択(early stopping)
このモデルを取る? l 本当に大丈夫?
l 開発データによるモデル選
択自体が悪いわけではない
20
モデル選択
l 開発データによるモデル選択(early stopping)
l どうしたら良い?
• 開発データによる選択
(Early stopping) しなくて
も良い設定にする
– そもそもlossの設計 (または
学習の設定)が悪い可能性
• あきらめる
– 開発が下がってもそれはそ
れと思う
l なるべく多く回して学習
Lossがあまり変わらない
ところまで回す
21
[余談] Testset tuning
l DNNになって比較的簡単に恣意的な結果をだせ
るようになった
ÞTestset-tuning疑惑の論文が散見されるように
なった??? (この値本当に出る?)
Þとはいえ,難しい問題が...
これは絶対にやってはいけない
22
Random seedで複数回評価
l 5回(できれば10回)Random Seedを変えて
実験
l 平均を報告
l (検定をするなら)Non-parametric な検定
• かなり厳しい設定の検定
=> これで有意差がでるならよいと考える
1 2 3 4 5 Ave
21.5 20.9 21.4 20.9 21.8 21.30
21.1 20.8 21.7 21.1 21.0 21.14
23
まとめ
l 実験結果が同じにならない様々な要因
l 自分にどうにもできないことは一旦あきらめる...
l 重要な比較手法は可能な限り再実験
l 比較手法は適切に(なるべく業界標準の良い方法)
l Lossの設計または学習の設定を確認
l 開発データで性能が下がらない設定をみつける?
l 乱数初期値を変えて複数回実験
l 検定もしておく?
他にもまだある気がするけど今日はこの辺で...

More Related Content

What's hot

不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
Shintaro Fukushima
 

What's hot (20)

Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
Word Tour: One-dimensional Word Embeddings via the Traveling Salesman Problem...
 
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tipscvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには新分野に飛び入って半年で業績を作るには
新分野に飛び入って半年で業績を作るには
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
 
大規模データに基づく自然言語処理
大規模データに基づく自然言語処理大規模データに基づく自然言語処理
大規模データに基づく自然言語処理
 
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究【論文調査】XAI技術の効能を ユーザ実験で評価する研究
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】ゼロから始める自然言語処理 【FIT2016チュートリアル】
ゼロから始める自然言語処理 【FIT2016チュートリアル】
 
“機械学習の説明”の信頼性
“機械学習の説明”の信頼性“機械学習の説明”の信頼性
“機械学習の説明”の信頼性
 
2019年度チュートリアルBPE
2019年度チュートリアルBPE2019年度チュートリアルBPE
2019年度チュートリアルBPE
 
研究分野をサーベイする
研究分野をサーベイする研究分野をサーベイする
研究分野をサーベイする
 
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
[DL輪読会]Factorized Variational Autoencoders for Modeling Audience Reactions to...
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
優れた研究論文の書き方
優れた研究論文の書き方優れた研究論文の書き方
優れた研究論文の書き方
 

Recently uploaded

2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
ssuserbefd24
 

Recently uploaded (11)

2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
 
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
論文紹介:ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
論文紹介:Deep Occlusion-Aware Instance Segmentation With Overlapping BiLayers
 
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
5/22 第23回 Customer系エンジニア座談会のスライド 公開用 西口瑛一
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf
 
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
ロボットマニピュレーションの作業・動作計画 / rosjp_planning_for_robotic_manipulation_20240521
 
Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )Intranet Development v1.0 (TSG LIVE! 12 LT )
Intranet Development v1.0 (TSG LIVE! 12 LT )
 
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
 

NLPにおける再現性