7. BERTとは
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018)
で提案された深層学習モデル。2022/7/22現在 44471引用!!!
簡単に、さまざまな自然言語処理タスクに適用可能であり、実際に多くの研究で用いられている。
以下の順序でBERTについて説明していく。
1. 入力文章の前処理
2. BERTの構造
A) 埋め込み
B) 自己注意機構(Self-Attention Mechanism)
C) 残差接続(Residual Connection)
D) 層正規化(Layer Normalization)
3. 事前学習
A) マスク言語モデリング(MLM : Masked Language Modeling)
4. 分類タスクへの適用法
7
質問はslackチャットで随時受け付けております
40. XLNetとの違い
40
質問はSlack#bert_workshop2022チャンネルで随時受け付けております
XLNet: Generalized Autoregressive Pretraining for Language Understanding(2019)で提案されたモデル。
BERTにおける[MASK]のデメリットを克服しているが、計算コストがBERTより重い。
New, York, is, a, city といった入力を考える
• BERTのマスク言語モデリングの場合
[MASK]された単語を予測する。
New, York, [MASK], a, city ⇦[MASK]という通常は使用されない単語が使用されている。
[MASK], [MASK], is, a, city ⇦複数単語マスクされた場合2つの単語の間の予測を活用できない。
• 通常の言語モデリングの場合
現在までの単語列から次の単語を予測する。
New, York, ? ⇦後半に出てくる単語の情報が使用できない。
• XLNetのモデリングの場合
語順を入れ替えて言語モデリングを行う。(各単語は元の位置を保存している)
is, New, city, a, ?
以上をすべての順列で行う。後半に出てくる単語を使用しつつ他の予測結果も使用できる。