Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

BERT : Bidirectional Encoder Representations from Transformers

BERTの論文紹介です.

Related Books

Free with a 30 day trial from Scribd

See all
  • Be the first to comment

  • Be the first to like this

BERT : Bidirectional Encoder Representations from Transformers

  1. 1. arXiv preprint arXiv:1810.04805, 2018
  2. 2. ■ 自然言語処理における事前学習の有効性が報告されている。 ・ 文章単位のタスク ・ 文章対の関係を予測するタスク ・ トークン単位のタスク ・ 質問に対して応答するタスク(1単語で答えるもの) ■ 従来の事前学習における課題 ・ 解くタスクに依存して事前学習の種類が変わる。 ・ 左から右への1方向の単語の埋め込みしか行われていない。 → 文章の前後の文脈を考慮できない。 背景 1
  3. 3. ■ タスクに依存しない汎用的な2つの事前学習手法の提案 ・ Masked Language Modeling(MLM) ・ 文章からマスクされたトークンを予測するタスク ・ Next Sequence Prediction(NSP) ・ 文章対が関連があるかを予測するタスク ■ 提案手法による貢献は以下の3つ ・ 双方向言語モデルによるトークン埋め込みの重要性の提唱 ・ タスク特化の複雑なモデル構造を単純化 ・ 11個の自然言語タスクでSOTA(State Of The Art)を達成 目的 2
  4. 4. ■ 自然言語処理における事前学習 ・ 事前学習によるトークンの埋め込みによりモデルの大幅な 精度改善が達成 → 事前学習は必要不可欠である。 ・ トークンの埋め込み表現の手法は主に以下の2つ ・ 文章の左から右へ埋め込む言語モデル[Minih+, ‘09] ・ 左右の文脈から単語が正しいか間違っているか判別 [Mikolov+, ‘13] ・ 文章の埋め込み表現の手法は主に以下の3つ ・ 次に続く文をランキング形式で予測[Jernite+, ‘17] ・ 次に来る文を生成するモデル[Kiros+, ‘15] ・ Denoising auto-encoderを用いたモデル[Hill+, ‘16] 先行文献 3
  5. 5. ■ 主流1: 特徴量ベース による手法 ・ 事前学習で獲得した分散表現を1つの特徴量として解釈 ・ ELMo [Peters+, ‘17], context2vec[Melamud+, ‘16] ・ ELMoに関してはいくつかのタスクでSOTA達成 先行文献 4 ■ 主流: fine-tuningベース による手法 ・ 事前学習で獲得した分散表現を重みの初期値と解釈 ・ OpenAI GPT[Radford+, ‘18] ・ 獲得した初期値から学習し文章タスクにおいてSOTA ■ 補足: 転移学習による手法 ・ [McCann+, ‘17] ・ 別のタスクで学習したモデルの重みを初期値として転用
  6. 6. ■ BERT (Bidirectional Encoder Representation from Transformer) 提案手法 5 ・ 汎用的なPre-training部とタスク特化のFine-tuning部で構成 ・ 異なるタスクでも統一されたモデル構造がであることが特徴 ・ BERTbase: 12層、隠れ層768次元、アテンションヘッド12 ・ BERTlarge: 12層、隠れ層1024次元、アテンションヘッド16
  7. 7. ■ BERTの入力表現 提案手法 6 ・ 入力は1つの文章もしくは、2つの文章のペアを想定 ・ 文章の最初に[CLS]トークンを付与 ・ 文章と文章の間には[SEP]トークンを付与 ・ 1文目なのか2文目なのかを区別する埋め込み表現を付与
  8. 8. ■ 事前学習1: MLM(Masked Language Model) 提案手法 7 ・ 入力の15%のトークンを[Mask]トークンで隠し、その [Mask]トークンを残りのトークンから予測させるタスク → 穴埋め問題 ・ fine-tuningの際は[Mask]トークンは出てこないため 以下の確率的な処理でその影響を緩和した。 ・ 80%: [Mask]トークンで置き換え ・ 10%: ランダムなトークンで置き換え ・ 10%: そのままにする。
  9. 9. ■ 事前学習2: NSP(Next Sentence Prediction) 提案手法 8 ・ Question and Answeringや自然言語推論などの文章同士の 関係を考慮するタスクはMLMでは対応できない。 ・ そこで、1文目と2文目の関係を2値分類するタスクを提案 ・ 関係あり: ‘IsNext’ ・ 関係なし: ‘NotNext’ ■ 事前学習に使用したデータセット ・ BooksCorpus: 8億単語 ・ English Wikipedia: 25億単語
  10. 10. ■ 事前学習毎の用途 提案手法 9 ・ 事前学習1で得たト-クンレベルの埋め込み表現の用途 ・ Question and Answering ・ 文章のタグ付け ・ 事前学習2で得た文章レベルの埋め込み表現の用途 ・ 感情分析 ・ 含意の予測(文章Bは文章Aの論拠になっているか) ■ 計算時間 ・ 事前学習1+事前学習2: クラウド型TPU4台で4日 ・ fine-tuning: いずれのタスクもクラウド型TPUで1時間 GPUであれば数時間で完了
  11. 11. ■ GLUE(General Language Understanding Estimation) 評価尺度 ・ 8つの自然言語理解タスクをまとめたもの。 最終スコアは8つのスコアの平均で算出(以下内訳) 10
  12. 12. ■ 従来手法(OpenAI GPT)の精度を大幅に更新しSOTA 実験結果 ・ OpenAI GPTから+4.5(base), +7.0(large)ポイントの改善 ・ Batch-size: 32 ・ epochs: 3(全てのタスクで統一) ・ learning rate: {5e-5, 4e-5, 3e-5,2e-5}の中から選択 ■ 実装設定 11
  13. 13. ■ SQuAD v1.1 (Stanford Question and Answering Dataset) 実験結果 ・ 質問文と答えが含まれた文章が渡され、答えの箇所を予測 ・ BERT(large)の単体が従来のSOTA(アンサンブル)を上回る。 12
  14. 14. ■ SQuAD v2 (Stanford Question and Answering Dataset) 実験結果 ・ SQuAD v1.1の文章中に”答えがない”問題も含めた版 ・ 従来法から+5.1ポイントでSOTA 13
  15. 15. ■ SWAG (The Situation With Adversarial Generations) 実験結果 ・ 与えられた入力文章に続く文章を4つの選択肢から選択 ・ 従来法から+8.3ポイントでSOTA 14
  16. 16. ■ 提案した2つの事前学習の有効性を確認 考察 切除実験 ・ LTR: 左から右方向の言語モデルによるトークン埋め込み ・ +BiLSTM: fine-tuningだけ双方向LSTMで学習 15
  17. 17. ■ モデルのサイズが予測精度に与える影響を調査 考察 モデルのサイズ ・ タスクに依存せず大きなモデルを使うことで精度向上 することを確認 16
  18. 18. ■ 固有表現抽出のタスクにおいて従来法と遜色ない精度を確認 考察 特徴量ベースの従来法との比較 ・ 特徴量ベース、fine-tuningベース共に有効であることを確認 17
  19. 19. まとめ ■ タスクに依存しない事前学習の手法を2つ提案し以下に貢献 ・ 双方向言語モデルによるトークン埋め込みの重要性の提唱 ・ タスク特化の複雑なモデル構造を単純化 ・ 従来の特徴量ベース、fine-tuningベース双方に 有効な事前学習手法であることを確認 ・ 11個の自然言語タスクでSOTA(State Of The Art)を達成 18

    Be the first to comment

BERTの論文紹介です.

Views

Total views

179

On Slideshare

0

From embeds

0

Number of embeds

89

Actions

Downloads

0

Shares

0

Comments

0

Likes

0

×