SlideShare a Scribd company logo
BERTと
ドメイン特化モデル
arXivtimes 勉強会
kamujun
Outline
• What is BERT?
• Derivative Models from BERT in Specific domain
- SciBERT
- BioBERT
- ClinicalBERT
- ClinicalBERT
!2
What is BERT?
BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding

Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
• Google AI が発表した⾔語表現モデル
• 2018年に発表され、他の⾔語表現モデルと共に話題を席巻

他にはELMo、OpenAI GPTなど
• 2019年時点で⽐較⼿法や派⽣モデルとして、多くの論⽂で
触れられる

!3
BERTの強み
• ⽂脈を考慮している

双⽅向同時学習モデルである。ELMoとはちょっと違う。
• 汎⽤な事前学習モデルである

事前学習を⾏ったあとタスクに応じたfine-tuneを⾏うこ
とで汎⽤的かつ良好な性能を⽰すことができた。

!4
BERTと他の⾔語表現モデル
アーキテクチャ⽐較
• BERTとOpenAI GPTはTransformer、ELMoはBi-directional LSTM
を利⽤。
• OpenAI GPTはleft-to-rightだが、BERTはそれに加えright-to-leftの
情報も⽤いる
• ELMoも双⽅向だが、各⽅向のモデル(LSTM)は独⽴であるため、同
時に双⽅向の情報を扱っていない
!5
Transformer
• BERTでは基本的なTransformerを利⽤。
!6
BERTのInput
以下を単純にSumした値がInputとなる。
• Token Embeddings

トークンの分散表現。
• Segment Embeddings

セグメント(2⽂それぞれ)の分散表現。Sentence Embeddingのようなもの。1⽂中の
トークンは全て同⼀の値。
• Position Embeddings

トークンの位置を表す表現。

シーケンスで採番するため、2⽂の場合でも通しで割り振る。
!7
論⽂ではinputする単位を
シーケンスと呼んでいる。

1⽂もしくは2⽂連結したもの。
Inputの[CLS]は分類問題などに利⽤。
[SEP]は1⽂⽬と2⽂⽬の分割部分を表す。
学習の流れ
• コーパスを⽤いた事前学習

AutoEncoderのような感じで⾔語表現を学習。後述するが、汎⽤
利⽤するならば⼤規模なコーパスが必要だと思われる。
• タスクに応じたFine-Tuning

解きたいタスクに応じてdown-streamのモデルとともに、再学習
させる。
!8
BERTの利⽤⽅法
(a)2⽂分類

含意関係(含意/⽭盾/中⽴)の分類な
ど。最初の[C]トークンのみを分類に
利⽤する。
(b)単⽂分類

感情分類など。最初の[C]トークン
トークンのみを分類に利⽤する。
(c)QA

質問応答など。応答⽂はT[SEP]以降
の2⽂⽬のトークンを利⽤。
(d)単⽂タギング

固有表現抽出など。[C]以降のすべて
のトークンを利⽤。
!9
Outline
• What is BERT?
• Derivative Models from BERT in Specific domain
- SciBERT
- BioBERT
- ClinicalBERT
- ClinicalBERT
!10
世はBERTパンデミック前夜!
!11
タイトルに「BERT」が
含まれるものだけでも37件
ドメイン特化した
BERT派⽣モデル
• BioBERT: a pre-trained biomedical language representation model for biomedical text
mining

Lee et al., Department of Computer Science and Engineering, Korea University
• SCIBERT: Pretrained Contextualized Embeddings for Scientific Text

Beltagy et al., Allen Institute for Artificial Intelligence
!12
• ClinicalBert: Modeling Clinical Notes and Predicting Hospital Readmission

Huang et al., Courant Institute of Mathematical Sciences
• Publicly Available Clinical BERT Embeddings

Alsentzer et al., Harvard-MIT
⽣物医学ドメイン・科学ドメインに特化
医療ドメイン特化
⽣物医学ドメイン・科学ドメイン特化
SciBIRTとBioBERT
• アーキテクチャはオリジナルの
BERTと同じ
• 基本的な思想としては、専⾨書
や論⽂をコーパスとして事前学
習を⾏うことでドメイン知識を
得る正当派なもの
• 事前学習後にドメイン固有の
Task-specific Fine-tuningを⾏
う
!13
BioBERTとSciBERT
コーパスとトークナイザ
SciBERT

Semantic Scholarからランダムピック
した計算機科学と⽣物医学分野の論⽂。



BioBERT

オリジナルのBERTのコーパスに加え、
PubMedのAbstract, PMCのフルテキス
トを利⽤。
!14
SciBERT

ScispaCyで⽂分割し、SentencePeace
でトークンに分割。



BioBERT

WordPieceでトークンに分割
コーパス トークナイザ
BioBERTとSciBERT
実験結果
!15
• SciBERT • BioBERT
ドメイン特化した
BERT派⽣モデル
• BioBERT: a pre-trained biomedical language representation model for biomedical text
mining

Lee et al., Department of Computer Science and Engineering, Korea University
• SCIBERT: Pretrained Contextualized Embeddings for Scientific Text

Beltagy et al., Allen Institute for Artificial Intelligence
!16
• ClinicalBert: Modeling Clinical Notes and Predicting Hospital
Readmission

Huang et al., Courant Institute of Mathematical Sciences
• Publicly Available Clinical BERT Embeddings

Alsentzer et al., Harvard-MIT
⽣物医学ドメイン・科学ドメインに特化
医療ドメイン特化
医療ドメイン特化
• Publicly Available Clinical BERT Embeddings

医療ドメイン特化したBERTを構築する。事前学習はオリジナルと
同じでFine-TuningにMIMICを⽤いる。

コーパスとする範囲(臨床メモ全て or 退院サマリーのみ)と、利⽤
する事前学習済みモデル(オリジナルBERT or BioBERT)の違いで
性能検証をした。

• ClinicalBert: Modeling Clinical Notes and Predicting Hospital
Readmission

再⼊院の推定というタスクを置きながら、医療ドメイン特化した
BERTを構築する。
!17
ClinicalBert(Alsentzer)

実験結果
• MeDNLIのテスクではオリジナルよりよい性能を⽰せた。
• ⼀⽅でi2b2のタスクでは明確な改善が⾒られなかった
!18
ClinicalBert(Huang)

モデル設計
• 臨床記録をもとに、⼊院患者が再⼊院するかどうかを推
定する。
!19
ClinicalBert(Huang)

実験
• 既存のモデルを⽤いるよりも⾼い性能を⽰した

→ドメイン特化した表現をうまく捉えることができてい
るのでは。
!20
ClinicalBert(Huang)
解釈性
• 再⼊院推定

chronic(慢性的な)と
いった単語にAttention
が掛かっていたりす
る。

!21
まとめと感想
• ドメイン特化したBERTの利⽤は⼀定の成功を収めている
と⾔えるのではないか
• 今後もドメイン特化させたBERT増えていくだろう…
• Attentionの掛かり⽅以外にも、解釈性の問題に取り組む
必要があるのでは
• Representation embedding 今後の発展は…?
!22
Reference
• BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding
• Publicly Available Clinical BERT Embeddings
• ClinicalBERT: Modeling Clinical Notes and Predicting Hospital
Readmission
• BERT: Pre-training of Deep Bidirectional Transformers for
Language Understanding
• How do they apply BERT in the clinical domain?
• Some examples of applying BERT in specific domain
!23

More Related Content

What's hot

これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
MicroAd, Inc.(Engineer)
 
ROS を用いた自律移動ロボットのシステム構築
ROS を用いた自律移動ロボットのシステム構築ROS を用いた自律移動ロボットのシステム構築
ROS を用いた自律移動ロボットのシステム構築
Yoshitaka HARA
 
tf,tf2完全理解
tf,tf2完全理解tf,tf2完全理解
tf,tf2完全理解
Koji Terada
 
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点
Tetsutaro Watanabe
 
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
Hironori Washizaki
 
MPC概説.pptx
MPC概説.pptxMPC概説.pptx
MPC概説.pptx
MichikuniEguchi
 
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
Sho Tanaka
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
miyanegi
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Yoshitaka Ushiku
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori
 
Minecraft による強化学習の実践 (MineRL)
Minecraft による強化学習の実践 (MineRL)Minecraft による強化学習の実践 (MineRL)
Minecraft による強化学習の実践 (MineRL)
Tusyoshi Matsuzaki
 
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
Deep Learning JP
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
Takahiro Kubo
 
視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究
Yoshitaka Ushiku
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
Fumihiko Takahashi
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Yosuke Shinya
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
Kazuyuki Miyazawa
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
 

What's hot (20)

これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
これから機械学習エンジニアとして戦っていくみなさんへ ~MLOps というマインドセットについて~
 
ROS を用いた自律移動ロボットのシステム構築
ROS を用いた自律移動ロボットのシステム構築ROS を用いた自律移動ロボットのシステム構築
ROS を用いた自律移動ロボットのシステム構築
 
tf,tf2完全理解
tf,tf2完全理解tf,tf2完全理解
tf,tf2完全理解
 
IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点IoTデバイスデータ収集の難しい点
IoTデバイスデータ収集の難しい点
 
(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説(修正)機械学習デザインパターン(ML Design Patterns)の解説
(修正)機械学習デザインパターン(ML Design Patterns)の解説
 
MPC概説.pptx
MPC概説.pptxMPC概説.pptx
MPC概説.pptx
 
機械学習モデルのサービングとは?
機械学習モデルのサービングとは?機械学習モデルのサービングとは?
機械学習モデルのサービングとは?
 
SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介SLAM開発における課題と対策の一例の紹介
SLAM開発における課題と対策の一例の紹介
 
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
 
マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
 
Minecraft による強化学習の実践 (MineRL)
Minecraft による強化学習の実践 (MineRL)Minecraft による強化学習の実践 (MineRL)
Minecraft による強化学習の実践 (MineRL)
 
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
【DL輪読会】NeRF in the Palm of Your Hand: Corrective Augmentation for Robotics vi...
 
機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018機械学習で泣かないためのコード設計 2018
機械学習で泣かないためのコード設計 2018
 
視覚と対話の融合研究
視覚と対話の融合研究視覚と対話の融合研究
視覚と対話の融合研究
 
Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
ドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologiesドラレコ + CV = 地図@Mobility Technologies
ドラレコ + CV = 地図@Mobility Technologies
 
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
 

More from Junya Kamura

Coursera Machine Learning week1
Coursera Machine Learning week1Coursera Machine Learning week1
Coursera Machine Learning week1
Junya Kamura
 
Parameterized convolutional neural networks for aspect level classification
Parameterized convolutional neural networks for aspect level classificationParameterized convolutional neural networks for aspect level classification
Parameterized convolutional neural networks for aspect level classification
Junya Kamura
 
Machine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubMachine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hub
Junya Kamura
 
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationDeep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classification
Junya Kamura
 
Deep contextualized word representations
Deep contextualized word representationsDeep contextualized word representations
Deep contextualized word representations
Junya Kamura
 
事例から見る人工知能の現在と、企業における活用方法
事例から見る人工知能の現在と、企業における活用方法事例から見る人工知能の現在と、企業における活用方法
事例から見る人工知能の現在と、企業における活用方法
Junya Kamura
 
論文輪講 Initializing convolutional filters with semantic features for text class...
論文輪講 Initializing convolutional filters with semantic features for text class...論文輪講 Initializing convolutional filters with semantic features for text class...
論文輪講 Initializing convolutional filters with semantic features for text class...
Junya Kamura
 
Deep learningの世界に飛び込む前の命綱
Deep learningの世界に飛び込む前の命綱Deep learningの世界に飛び込む前の命綱
Deep learningの世界に飛び込む前の命綱
Junya Kamura
 
Reasoning with neural tensor networks for knowledge base completion
Reasoning with neural tensor networks for knowledge base completionReasoning with neural tensor networks for knowledge base completion
Reasoning with neural tensor networks for knowledge base completion
Junya Kamura
 

More from Junya Kamura (9)

Coursera Machine Learning week1
Coursera Machine Learning week1Coursera Machine Learning week1
Coursera Machine Learning week1
 
Parameterized convolutional neural networks for aspect level classification
Parameterized convolutional neural networks for aspect level classificationParameterized convolutional neural networks for aspect level classification
Parameterized convolutional neural networks for aspect level classification
 
Machine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hubMachine learning 15min TensorFlow hub
Machine learning 15min TensorFlow hub
 
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationDeep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classification
 
Deep contextualized word representations
Deep contextualized word representationsDeep contextualized word representations
Deep contextualized word representations
 
事例から見る人工知能の現在と、企業における活用方法
事例から見る人工知能の現在と、企業における活用方法事例から見る人工知能の現在と、企業における活用方法
事例から見る人工知能の現在と、企業における活用方法
 
論文輪講 Initializing convolutional filters with semantic features for text class...
論文輪講 Initializing convolutional filters with semantic features for text class...論文輪講 Initializing convolutional filters with semantic features for text class...
論文輪講 Initializing convolutional filters with semantic features for text class...
 
Deep learningの世界に飛び込む前の命綱
Deep learningの世界に飛び込む前の命綱Deep learningの世界に飛び込む前の命綱
Deep learningの世界に飛び込む前の命綱
 
Reasoning with neural tensor networks for knowledge base completion
Reasoning with neural tensor networks for knowledge base completionReasoning with neural tensor networks for knowledge base completion
Reasoning with neural tensor networks for knowledge base completion
 

Derivative models from BERT