[ 論文紹介 ] BERT
学部3年 海老原
Contents
intro
model
task and learning
experiments
まとめ
論文概要 正式名称 : Pre-training of Deep
Bidirectional Transformers for
Language Understanding
BERT = Bidirectional Encoder
Representations from
Transformers
2018 年 10 月の SOTA 論文
自然言語処理のモデル
Transformer が使われている
大規模な事前学習モデル
7 つの NLP タスクにて SOTA
エルモとバート
事前学習モデル
Feature-based モデル ( 例: ELMo)
ネットワーク内部で分散表現を学習
Fine-tuning モデル ( 例: GPT)
データセットに対して学習
復習: transformer
encoder: self-attention
入力 X
Q,K,V = X*W[q],*W[k],*W[v]
softmax(Q*K)*V
Q: 検索クエリ
K: 文字
V: データ
BERT のモデル
双方向 Transformer
二種類のモデルがある
BASE(16TPU*4day)
7000 ドルくらい?
LARGE(64TPU*4day)
入力
一つの文章 / 文章ペア
学習時間がかかる
15% の単語にマスクをかけ
て予測するので何度も回す
BERT のモデル
インプットは 512 になるように切る
必ず最初に [CLS] を使う
2 つの文を使うとき [SEP] を使うか、 AB をつける
タスクと学習
ランダムにマスクされた単語を予測する
2つの文章を比較して隣合っているかを判別する
Pre-training
データセット: BooksCorpus(800M)+English Wikipedia(2500M)
系列長が合計 512 以下になるようサンプリング
Fine-tuning
分類層、 softmax 層を追加
バッチサイズ、学習率、エポック数を変更
アーキテクト
実験
QA
抜けてる単語を当てる
thanks...
.https://twitter.com/_Ryobot/status/1050925881894400000
他の実験
事前学習
モデルのサイズ
学習回数
feature-based アプローチ
気になったら論文読んで下さ
い ..
まとめ
双方向モデルは自然言語に適してる
BERT の事前学習パラメータがあれば転移学習で色々な
タスクに使える
内部も分かり始めている
お金が欲しい ...
end roll
https://www.slideshare.net/DeepLearningJP2016/dlbert-pretraining-of-deep-bidirectional-transform
https://qiita.com/Kosuke-Szk/items/d49e2127bf95a1a8e19f

[FUNAI輪講] BERT