[FUNAI輪講] BERT

[ 論文紹介 ] BERT
学部３年海老原

Contents
intro
model
task and learning
experiments
まとめ

論文概要正式名称 : Pre-training of Deep
Bidirectional Transformers for
Language Understanding
BERT = Bidirectional Encoder
Representations from
Transformers
2018 年 10 月の SOTA 論文
自然言語処理のモデル
Transformer が使われている
大規模な事前学習モデル
7 つの NLP タスクにて SOTA

事前学習モデル
Feature-based モデル ( 例： ELMo)
ネットワーク内部で分散表現を学習
Fine-tuning モデル ( 例： GPT)
データセットに対して学習

復習： transformer
encoder: self-attention
入力 X
Q,K,V = X*W[q],*W[k],*W[v]
softmax(Q*K)*V
Q: 検索クエリ
K: 文字
V: データ

BERT のモデル
双方向 Transformer
二種類のモデルがある
BASE(16TPU*4day)
7000 ドルくらい？
LARGE(64TPU*4day)
入力
一つの文章 / 文章ペア
学習時間がかかる
15% の単語にマスクをかけ
て予測するので何度も回す

BERT のモデル
インプットは 512 になるように切る
必ず最初に [CLS] を使う
2 つの文を使うとき [SEP] を使うか、 AB をつける

タスクと学習
ランダムにマスクされた単語を予測する
２つの文章を比較して隣合っているかを判別する
Pre-training
データセット： BooksCorpus(800M)+English Wikipedia(2500M)
系列長が合計 512 以下になるようサンプリング
Fine-tuning
分類層、 softmax 層を追加
バッチサイズ、学習率、エポック数を変更

実験
QA
抜けてる単語を当てる
thanks...
.https://twitter.com/_Ryobot/status/1050925881894400000

他の実験
事前学習
モデルのサイズ
学習回数
feature-based アプローチ
気になったら論文読んで下さ
い ..

まとめ
双方向モデルは自然言語に適してる
BERT の事前学習パラメータがあれば転移学習で色々な
タスクに使える
内部も分かり始めている
お金が欲しい ...

end roll
https://www.slideshare.net/DeepLearningJP2016/dlbert-pretraining-of-deep-bidirectional-transform
https://qiita.com/Kosuke-Szk/items/d49e2127bf95a1a8e19f

[FUNAI輪講] BERT

More Related Content

What's hot

Similar to [FUNAI輪講] BERT

[FUNAI輪講] BERT