Derivative models from BERT

BERTと
ドメイン特化モデル
arXivtimes 勉強会
kamujun

Outline
• What is BERT?
• Derivative Models from BERT in Speciﬁc domain
- SciBERT
- BioBERT
- ClinicalBERT
- ClinicalBERT
!2

What is BERT?
BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding 
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
• Google AI が発表した⾔語表現モデル
• 2018年に発表され、他の⾔語表現モデルと共に話題を席巻 
他にはELMo、OpenAI GPTなど
• 2019年時点で⽐較⼿法や派⽣モデルとして、多くの論⽂で
触れられる 
!3

BERTの強み
• ⽂脈を考慮している 
双⽅向同時学習モデルである。ELMoとはちょっと違う。
• 汎⽤な事前学習モデルである 
事前学習を⾏ったあとタスクに応じたﬁne-tuneを⾏うこ
とで汎⽤的かつ良好な性能を⽰すことができた。 
!4

BERTと他の⾔語表現モデル
アーキテクチャ⽐較
• BERTとOpenAI GPTはTransformer、ELMoはBi-directional LSTM
を利⽤。
• OpenAI GPTはleft-to-rightだが、BERTはそれに加えright-to-leftの
情報も⽤いる
• ELMoも双⽅向だが、各⽅向のモデル(LSTM)は独⽴であるため、同
時に双⽅向の情報を扱っていない
!5

Transformer
• BERTでは基本的なTransformerを利⽤。
!6

BERTのInput
以下を単純にSumした値がInputとなる。
• Token Embeddings 
トークンの分散表現。
• Segment Embeddings 
セグメント(2⽂それぞれ)の分散表現。Sentence Embeddingのようなもの。1⽂中の
トークンは全て同⼀の値。
• Position Embeddings 
トークンの位置を表す表現。 
シーケンスで採番するため、2⽂の場合でも通しで割り振る。
!7
論⽂ではinputする単位を
シーケンスと呼んでいる。 
1⽂もしくは2⽂連結したもの。
Inputの[CLS]は分類問題などに利⽤。
[SEP]は1⽂⽬と2⽂⽬の分割部分を表す。

学習の流れ
• コーパスを⽤いた事前学習 
AutoEncoderのような感じで⾔語表現を学習。後述するが、汎⽤
利⽤するならば⼤規模なコーパスが必要だと思われる。
• タスクに応じたFine-Tuning 
解きたいタスクに応じてdown-streamのモデルとともに、再学習
させる。
!8

BERTの利⽤⽅法
(a)2⽂分類 
含意関係(含意/⽭盾/中⽴)の分類な
ど。最初の[C]トークンのみを分類に
利⽤する。
(b)単⽂分類 
感情分類など。最初の[C]トークン
トークンのみを分類に利⽤する。
(c)QA 
質問応答など。応答⽂はT[SEP]以降
の2⽂⽬のトークンを利⽤。
(d)単⽂タギング 
固有表現抽出など。[C]以降のすべて
のトークンを利⽤。
!9

Outline
• What is BERT?
• Derivative Models from BERT in Speciﬁc domain
- SciBERT
- BioBERT
- ClinicalBERT
- ClinicalBERT
!10

世はBERTパンデミック前夜!
!11
タイトルに「BERT」が
含まれるものだけでも37件

ドメイン特化した
BERT派⽣モデル
• BioBERT: a pre-trained biomedical language representation model for biomedical text
mining 
Lee et al., Department of Computer Science and Engineering, Korea University
• SCIBERT: Pretrained Contextualized Embeddings for Scientiﬁc Text 
Beltagy et al., Allen Institute for Artiﬁcial Intelligence
!12
• ClinicalBert: Modeling Clinical Notes and Predicting Hospital Readmission 
Huang et al., Courant Institute of Mathematical Sciences
• Publicly Available Clinical BERT Embeddings 
Alsentzer et al., Harvard-MIT
⽣物医学ドメイン・科学ドメインに特化
医療ドメイン特化

⽣物医学ドメイン・科学ドメイン特化
SciBIRTとBioBERT
• アーキテクチャはオリジナルの
BERTと同じ
• 基本的な思想としては、専⾨書
や論⽂をコーパスとして事前学
習を⾏うことでドメイン知識を
得る正当派なもの
• 事前学習後にドメイン固有の
Task-speciﬁc Fine-tuningを⾏
う
!13

BioBERTとSciBERT
コーパスとトークナイザ
SciBERT 
Semantic Scholarからランダムピック
した計算機科学と⽣物医学分野の論⽂。 
 
BioBERT 
オリジナルのBERTのコーパスに加え、
PubMedのAbstract, PMCのフルテキス
トを利⽤。
!14
SciBERT 
ScispaCyで⽂分割し、SentencePeace
でトークンに分割。 
 
BioBERT 
WordPieceでトークンに分割
コーパストークナイザ

BioBERTとSciBERT
実験結果
!15
• SciBERT • BioBERT

ドメイン特化した
BERT派⽣モデル
• BioBERT: a pre-trained biomedical language representation model for biomedical text
mining 
Lee et al., Department of Computer Science and Engineering, Korea University
• SCIBERT: Pretrained Contextualized Embeddings for Scientiﬁc Text 
Beltagy et al., Allen Institute for Artiﬁcial Intelligence
!16
• ClinicalBert: Modeling Clinical Notes and Predicting Hospital
Readmission 
Huang et al., Courant Institute of Mathematical Sciences
Alsentzer et al., Harvard-MIT
⽣物医学ドメイン・科学ドメインに特化

医療ドメイン特化したBERTを構築する。事前学習はオリジナルと
同じでFine-TuningにMIMICを⽤いる。 
コーパスとする範囲(臨床メモ全て or 退院サマリーのみ)と、利⽤
する事前学習済みモデル(オリジナルBERT or BioBERT)の違いで
性能検証をした。 
• ClinicalBert: Modeling Clinical Notes and Predicting Hospital
Readmission 
再⼊院の推定というタスクを置きながら、医療ドメイン特化した
BERTを構築する。
!17

ClinicalBert(Alsentzer) 
実験結果
• MeDNLIのテスクではオリジナルよりよい性能を⽰せた。
• ⼀⽅でi2b2のタスクでは明確な改善が⾒られなかった
!18

ClinicalBert(Huang) 
モデル設計
• 臨床記録をもとに、⼊院患者が再⼊院するかどうかを推
定する。
!19

ClinicalBert(Huang) 
実験
• 既存のモデルを⽤いるよりも⾼い性能を⽰した 
→ドメイン特化した表現をうまく捉えることができてい
るのでは。
!20

ClinicalBert(Huang)
解釈性
• 再⼊院推定 
chronic(慢性的な)と
いった単語にAttention
が掛かっていたりす
る。 
!21

まとめと感想
• ドメイン特化したBERTの利⽤は⼀定の成功を収めている
と⾔えるのではないか
• 今後もドメイン特化させたBERT増えていくだろう…
• Attentionの掛かり⽅以外にも、解釈性の問題に取り組む
必要があるのでは
• Representation embedding 今後の発展は…？
!22

Reference
• BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding
• Publicly Available Clinical BERT Embeddings
• ClinicalBERT: Modeling Clinical Notes and Predicting Hospital
Readmission
• BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding
• How do they apply BERT in the clinical domain?
• Some examples of applying BERT in speciﬁc domain
!23

Derivative models from BERT

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from Junya Kamura

More from Junya Kamura (9)

Derivative models from BERT