BERT を中心に解説した資料です.BERT に比べると,XLNet と RoBERTa の内容は詳細に追ってないです. あと,自作の図は上から下ですが,引っ張ってきた図は下から上になっているので注意してください. もし間違い等あったら修正するので,言ってください. (特に,RoBERTa の英語を読み間違えがちょっと怖いです.言い訳すいません.) BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding XLNet: Generalized Autoregressive Pretraining for Language Understanding RoBERTa: A Robustly Optimized BERT Pretraining Approach