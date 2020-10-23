Successfully reported this slideshow.
自然言語分野で2020年内に発表された手法の紹介。

Electra pQRNN

  1. 1. ELECTRAと pQRNN BERTを超えて 濱野　莞月
  2. 2. 自然言語モデルの現状
  3. 3. 今、精度の高い自然言語モデル NLP(自然言語タスク)ではBERTやGPTなどの汎用言語モデルが高い精度を実現 MicrosoftはGPT-3の独占的ライセンスをOpenAIから取得（Ingite 2020で発表） https://s3-us-west-2.amazonaws.com/openai-assets/research- covers/language-unsupervised/language_understanding_pape r.pdf https://arxiv.org/pdf/1810.04805.pdf BERTの構成と事前/転移学習方法 GPTの構成と転移学習方法
  4. 4. BERTが抱える課題 GPTはとても巨大なモデルで計算リソースの観点からBERTの方が利用頻度が高い しかしながらBERTにもいくつかの課題が残る https://arxiv.org/pdf/2003.10555.pdf https://ai-scholar.tech/articles/treatise/electra-ai-382 マスクされた単語を予測するMLM メジャーな自然言語モデルの速度と実行環境の一例 MLM:Masked Language Modeling(BERTの構築) 文章内で一部(15%程度)MASKされた単語を予測 マスクされていない単語はそのまま出力すれば正解となる ため、85%の単語が学習に活かされてない 転移学習時や推論時に、それなりの計算リソースを有する 環境（高価なGPUやTPU）を用意しなければいけない Train/Infer FLOPs & Hardwear
  5. 5. 言語モデルの研究動向（2020年）
  6. 6. 最近の自然言語モデル 精度や速度の向上を目指し、2020年に発表された新たな自然言語モデルや手法 アプローチ 手法の名前 概要 発表時期 精度の改善 ELECTRA GANの仕組みに触発され、MLMに代わるRTD:Replaced Token Detection(置き換えられた単語の検出)を提案。BERTよりも少ない学習時間で 高い精度を実現 2020年5月 Longformer 局所的なAttentionとタスクに紐づいたGlobal Attentionの導入により、既存の Transformerよりも長い時系列が扱える 2020年4月 速度の改善 pQRNN 低次元に射影するレイヤーを使うPRADOをベースに、LSTMよりも高速な QRNNレイヤー組み込んだモデル。BERTと同じくらいの精度で、BERTよりもパ ラメータ数が大幅に削減(1/300)されたモデル。 2020年9月 Reformer LSH:Locality-Sensitive-Hashing(局所的鋭敏型ハッシュ)とReversible Residual Layerの導入により、既存のTransformerのメモリ効率を向上 2020年1月 (初版) 本日  ご紹介 
  7. 7. ELECTRA
  8. 8. ELECTRAの作り方 GANの仕組みをベースにMLMの出力結果を利用したRTDを提案 学習済みDiscriminatorは汎用言語モデルとして様々なタスク用に転移学習可能 生成器(BERTなど) 　 識別器(ELECTRA本体) RTD:Replace Token Detectionで作るELECTRAの事前学習 ほどほどの精度のMLMを使うことで、元の文章内の一部(15%程 度)の単語が、元の単語のままだったり、別の単語に置き換わったり する 文章内の各単語が、元の単語か置き換わった単語か予測 文章内の各単語に対して予測を行うため、全ての 単語をフルに学習に活用 https://arxiv.org/pdf/2003.10555.pdf
  9. 9. ELECTRAがBERTの性能を上回る GLUEデータセットにおいては、XLNetの1/4の学習量で同程度のスコアを達成 他のデータセットにおいても、BERT系のモデルのスコアを上回ることがほとんど https://arxiv.org/pdf/2003.10555.pdf GLUEデータセットにおける精度比較 様々なデータセットにおける精度比較 https://ai.googleblog.com/2020/03/more-eﬃcient-nlp-model-pre-training.html
  10. 10. ELECTRAの使用方法 2020年5月のGoogle AI Blogでの発表時TensorFlow v1でのコードとモデルが公開 2020年6月には日本語の事前学習済みELECTRAが公開 1. Googleが公開しているTensorFlow v1ベースのELECTRA https://github.com/google-research/electra 2. Huggin FaceのTransformersでのELECTRA https://huggingface.co/transformers/model_doc/electra.html 3. 株式会社シナモンが公開している日本語での事前学習済みELECTRA https://github.com/Cinnamon/electra_japanese
  11. 11. pQRNN
  12. 12. PRADO（pQRNNの元となったモデル） 単語を低次元に射影して埋め込むレイヤー(Projected Embedding Layer)を使用する ことで、200KB以下のモデルサイズを実現 https://www.aclweb.org/anthology/D19-1506.pdf Yelpデータセットで小型LSTMとの比較 PRADOの構造 ⇐射影&単語埋め込み層 ⇐畳み込み 　＆アテンション層
  13. 13. pQRNN PRADOをベースに、シーケンシャルデータの並列計算を可能にした QRNN:quasi-recurrent neural networkを使用したモデル BERTとほぼ同精度ながらもパラメータ数が300分の1に削減されたモデルを実現 https://ai.googleblog.com/2020/09/advancing-nlp-with-eﬃcient-projection.html?utm_campaign=piqcy&utm_medium=email&utm_source=Revue%20newsletter civil_commentsデータセットでBERTとの比較 LSTM層、CNN層、QRNN層の違い https://arxiv.org/pdf/1611.01576.pdf pQENNの構造
  14. 14. まとめ 大抵は既存手法をベースにした新手 法が次々と発表されている いつ、どの手法がトレンドになっても、 すぐに対応できるよう、早めに基礎を 固めておくのは大切

