SlideShare a Scribd company logo
1 of 14
[ 論文紹介 ] BERT
学部3年 海老原
Contents
intro
model
task and learning
experiments
まとめ
論文概要 正式名称 : Pre-training of Deep
Bidirectional Transformers for
Language Understanding
BERT = Bidirectional Encoder
Representations from
Transformers
2018 年 10 月の SOTA 論文
自然言語処理のモデル
Transformer が使われている
大規模な事前学習モデル
7 つの NLP タスクにて SOTA
エルモとバート
事前学習モデル
Feature-based モデル ( 例: ELMo)
ネットワーク内部で分散表現を学習
Fine-tuning モデル ( 例: GPT)
データセットに対して学習
復習: transformer
encoder: self-attention
入力 X
Q,K,V = X*W[q],*W[k],*W[v]
softmax(Q*K)*V
Q: 検索クエリ
K: 文字
V: データ
BERT のモデル
双方向 Transformer
二種類のモデルがある
BASE(16TPU*4day)
7000 ドルくらい?
LARGE(64TPU*4day)
入力
一つの文章 / 文章ペア
学習時間がかかる
15% の単語にマスクをかけ
て予測するので何度も回す
BERT のモデル
インプットは 512 になるように切る
必ず最初に [CLS] を使う
2 つの文を使うとき [SEP] を使うか、 AB をつける
タスクと学習
ランダムにマスクされた単語を予測する
2つの文章を比較して隣合っているかを判別する
Pre-training
データセット: BooksCorpus(800M)+English Wikipedia(2500M)
系列長が合計 512 以下になるようサンプリング
Fine-tuning
分類層、 softmax 層を追加
バッチサイズ、学習率、エポック数を変更
アーキテクト
実験
QA
抜けてる単語を当てる
thanks...
.https://twitter.com/_Ryobot/status/1050925881894400000
他の実験
事前学習
モデルのサイズ
学習回数
feature-based アプローチ
気になったら論文読んで下さ
い ..
まとめ
双方向モデルは自然言語に適してる
BERT の事前学習パラメータがあれば転移学習で色々な
タスクに使える
内部も分かり始めている
お金が欲しい ...
end roll
https://www.slideshare.net/DeepLearningJP2016/dlbert-pretraining-of-deep-bidirectional-transform
https://qiita.com/Kosuke-Szk/items/d49e2127bf95a1a8e19f

More Related Content

What's hot

Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
Kohta Ishikawa
 
Exgettextの話
Exgettextの話Exgettextの話
Exgettextの話
k1complete
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
Shotaro Sano
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
Kosuke Futamata
 

What's hot (20)

Python : Class
Python : ClassPython : Class
Python : Class
 
Python : for文の解説
Python : for文の解説Python : for文の解説
Python : for文の解説
 
Knowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embeddingKnowledge_graph_alignment_with_entity-pair_embedding
Knowledge_graph_alignment_with_entity-pair_embedding
 
Icml読み会 deep speech2
Icml読み会 deep speech2Icml読み会 deep speech2
Icml読み会 deep speech2
 
Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)Rでisomap(多様体学習のはなし)
Rでisomap(多様体学習のはなし)
 
More modern gpu
More modern gpuMore modern gpu
More modern gpu
 
GPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装についてGPU上でのNLP向け深層学習の実装について
GPU上でのNLP向け深層学習の実装について
 
最適輸送入門
最適輸送入門最適輸送入門
最適輸送入門
 
Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)Encoder-decoder 翻訳 (TISハンズオン資料)
Encoder-decoder 翻訳 (TISハンズオン資料)
 
Exgettextの話
Exgettextの話Exgettextの話
Exgettextの話
 
Acl yomikai, 1016, 20110903
Acl yomikai, 1016,  20110903Acl yomikai, 1016,  20110903
Acl yomikai, 1016, 20110903
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
 
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
再帰型ニューラルネット in 機械学習プロフェッショナルシリーズ輪読会
 
PCFG構文解析法
PCFG構文解析法PCFG構文解析法
PCFG構文解析法
 
201908 のの会@関数Talk 15th
201908  のの会@関数Talk 15th201908  のの会@関数Talk 15th
201908 のの会@関数Talk 15th
 
A Chainer MeetUp Talk
A Chainer MeetUp TalkA Chainer MeetUp Talk
A Chainer MeetUp Talk
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
 
日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討日本語テキスト音声合成のための句境界予測モデルの検討
日本語テキスト音声合成のための句境界予測モデルの検討
 
Retrofitting Word Vectors to Semantic Lexicons
Retrofitting Word Vectors to Semantic LexiconsRetrofitting Word Vectors to Semantic Lexicons
Retrofitting Word Vectors to Semantic Lexicons
 

Similar to [FUNAI輪講] BERT

.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
.NET micro  FrameWork for TOPPERS  (.NET基礎)@基礎勉強会.NET micro  FrameWork for TOPPERS  (.NET基礎)@基礎勉強会
.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
Kiyoshi Ogawa
 
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
Shintaro Hosoai
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
JubatusOfficial
 

Similar to [FUNAI輪講] BERT (20)

.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
.NET micro  FrameWork for TOPPERS  (.NET基礎)@基礎勉強会.NET micro  FrameWork for TOPPERS  (.NET基礎)@基礎勉強会
.NET micro FrameWork for TOPPERS (.NET基礎)@基礎勉強会
 
Groovy Bootcamp 2015 by JGGUG
Groovy Bootcamp 2015 by JGGUGGroovy Bootcamp 2015 by JGGUG
Groovy Bootcamp 2015 by JGGUG
 
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdfmakoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
makoto shing (stability ai) - image model fine-tuning - wandb_event_230525.pdf
 
2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma2020 03 05_mar_revenshtein_transformer_tmu_homma
2020 03 05_mar_revenshtein_transformer_tmu_homma
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
no12.pptx
no12.pptxno12.pptx
no12.pptx
 
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
テキスト型Domain Specific Language (DSL) 開発フレームワークXtext の紹介
 
Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)Hello Dark-Side C# (Part. 1)
Hello Dark-Side C# (Part. 1)
 
ElectraとpQRNNについて
ElectraとpQRNNについてElectraとpQRNNについて
ElectraとpQRNNについて
 
NeurIPS2020参加報告
NeurIPS2020参加報告NeurIPS2020参加報告
NeurIPS2020参加報告
 
Eclipse modeling projectの概要
Eclipse modeling projectの概要Eclipse modeling projectの概要
Eclipse modeling projectの概要
 
OSS-DB Gold 合格体験記(第29回PostgreSQLアンカンファレンス@オンライン 発表資料)
OSS-DB Gold 合格体験記(第29回PostgreSQLアンカンファレンス@オンライン 発表資料)OSS-DB Gold 合格体験記(第29回PostgreSQLアンカンファレンス@オンライン 発表資料)
OSS-DB Gold 合格体験記(第29回PostgreSQLアンカンファレンス@オンライン 発表資料)
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
[DL Hacks]Pretraining-Based Natural Language Generation for Text Summarizatio...
[DL Hacks]Pretraining-Based Natural Language Generation for Text Summarizatio...[DL Hacks]Pretraining-Based Natural Language Generation for Text Summarizatio...
[DL Hacks]Pretraining-Based Natural Language Generation for Text Summarizatio...
 
160705-03 RTミドルウエア講習会・名城大
160705-03 RTミドルウエア講習会・名城大160705-03 RTミドルウエア講習会・名城大
160705-03 RTミドルウエア講習会・名城大
 
BERTology のススメ
BERTology のススメBERTology のススメ
BERTology のススメ
 
なにわテック20180127
なにわテック20180127なにわテック20180127
なにわテック20180127
 
PostgreSQL 9.5 新機能紹介
PostgreSQL 9.5 新機能紹介PostgreSQL 9.5 新機能紹介
PostgreSQL 9.5 新機能紹介
 
TensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vecTensorFlow math ja 05 word2vec
TensorFlow math ja 05 word2vec
 
pg_bigmを用いた全文検索のしくみ(前編)
pg_bigmを用いた全文検索のしくみ(前編)pg_bigmを用いた全文検索のしくみ(前編)
pg_bigmを用いた全文検索のしくみ(前編)
 

[FUNAI輪講] BERT