SlideShare a Scribd company logo
Submit Search
Upload
【論文読み会】Universal Language Model Fine-tuning for Text Classification
Report
Share
ARISE analytics
ARISE analytics
Follow
•
3 likes
•
1,947 views
1
of
23
【論文読み会】Universal Language Model Fine-tuning for Text Classification
•
3 likes
•
1,947 views
Report
Share
Download Now
Download to read offline
Data & Analytics
論文「Universal Language Model Fine-tuning for Text Classification」について輪読した際の資料です。
Read more
ARISE analytics
ARISE analytics
Follow
Recommended
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling by
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
2.9K views
•
25 slides
Transformerを雰囲気で理解する by
Transformerを雰囲気で理解する
AtsukiYamaguchi1
4.7K views
•
37 slides
Transformerを多層にする際の勾配消失問題と解決法について by
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
4.8K views
•
16 slides
最近のDeep Learning (NLP) 界隈におけるAttention事情 by
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
72.3K views
•
76 slides
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~ by
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII
10.6K views
•
38 slides
【論文紹介】How Powerful are Graph Neural Networks? by
【論文紹介】How Powerful are Graph Neural Networks?
Masanao Ochi
3.9K views
•
23 slides
More Related Content
What's hot
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 by
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
16K views
•
38 slides
backbone としての timm 入門 by
backbone としての timm 入門
Takuji Tahara
7.4K views
•
19 slides
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 by
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
3.8K views
•
48 slides
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing by
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
3K views
•
21 slides
情報検索とゼロショット学習 by
情報検索とゼロショット学習
kt.mako
2.2K views
•
39 slides
Triplet Loss 徹底解説 by
Triplet Loss 徹底解説
tancoro
11.4K views
•
46 slides
What's hot
(20)
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 by Yusuke Uchida
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
•
16K views
backbone としての timm 入門 by Takuji Tahara
backbone としての timm 入門
Takuji Tahara
•
7.4K views
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 by SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
•
3.8K views
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing by Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
•
3K views
情報検索とゼロショット学習 by kt.mako
情報検索とゼロショット学習
kt.mako
•
2.2K views
Triplet Loss 徹底解説 by tancoro
Triplet Loss 徹底解説
tancoro
•
11.4K views
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ... by Deep Learning JP
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP
•
3.1K views
How Much Position Information Do Convolutional Neural Networks Encode? by Kazuyuki Miyazawa
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa
•
2.3K views
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? by Deep Learning JP
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP
•
1.1K views
因果推論を用いた 群衆移動の誘導における介入効果推定 by Koh Takeuchi
因果推論を用いた 群衆移動の誘導における介入効果推定
Koh Takeuchi
•
364 views
BERT入門 by Ken'ichi Matsui
BERT入門
Ken'ichi Matsui
•
7.5K views
[DL輪読会]Learning Latent Dynamics for Planning from Pixels by Deep Learning JP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
•
3.9K views
近年のHierarchical Vision Transformer by Yusuke Uchida
近年のHierarchical Vision Transformer
Yusuke Uchida
•
13.8K views
畳み込みニューラルネットワークの高精度化と高速化 by Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida
•
64.5K views
【DL輪読会】ViT + Self Supervised Learningまとめ by Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP
•
4K views
【メタサーベイ】Video Transformer by cvpaper. challenge
【メタサーベイ】Video Transformer
cvpaper. challenge
•
2.2K views
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演) by Shota Imai
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
•
2.3K views
【メタサーベイ】基盤モデル / Foundation Models by cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge
•
16.4K views
モデルではなく、データセットを蒸留する by Takahiro Kubo
モデルではなく、データセットを蒸留する
Takahiro Kubo
•
7.8K views
[DLHacks]StyleGANとBigGANのStyle mixing, morphing by Deep Learning JP
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
Deep Learning JP
•
14.2K views
Similar to 【論文読み会】Universal Language Model Fine-tuning for Text Classification
サービスのスケール化のための検索システム改善 by
サービスのスケール化のための検索システム改善
PIXTA Inc.
1.9K views
•
46 slides
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~ by
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~
Hinemos
4.1K views
•
53 slides
【論文読み会】Self-Attention Generative Adversarial Networks by
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
5.3K views
•
23 slides
転移学習ランキング・ドメイン適応 by
転移学習ランキング・ドメイン適応
Elpo González Valbuena
1.1K views
•
12 slides
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... by
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
183 views
•
32 slides
Icml2018読み会_overview&GANs by
Icml2018読み会_overview&GANs
Kentaro Tachibana
2.8K views
•
37 slides
Similar to 【論文読み会】Universal Language Model Fine-tuning for Text Classification
(9)
サービスのスケール化のための検索システム改善 by PIXTA Inc.
サービスのスケール化のための検索システム改善
PIXTA Inc.
•
1.9K views
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~ by Hinemos
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~
Hinemos
•
4.1K views
【論文読み会】Self-Attention Generative Adversarial Networks by ARISE analytics
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics
•
5.3K views
転移学習ランキング・ドメイン適応 by Elpo González Valbuena
転移学習ランキング・ドメイン適応
Elpo González Valbuena
•
1.1K views
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... by ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics
•
183 views
Icml2018読み会_overview&GANs by Kentaro Tachibana
Icml2018読み会_overview&GANs
Kentaro Tachibana
•
2.8K views
Erpと自然言語処理 by Works Applications
Erpと自然言語処理
Works Applications
•
1.2K views
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling- by Takahiro Kubo
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
Takahiro Kubo
•
37.9K views
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation by Kanji Takahashi
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
Kanji Takahashi
•
1.7K views
More from ARISE analytics
【論文レベルで理解しよう!】 欠測値処理編 by
【論文レベルで理解しよう!】 欠測値処理編
ARISE analytics
86 views
•
19 slides
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編 by
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編
ARISE analytics
115 views
•
20 slides
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (... by
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
122 views
•
24 slides
教師なしGNNによるIoTデバイスの異常通信検知の検討 by
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
1K views
•
21 slides
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... by
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
574 views
•
18 slides
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... by
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
464 views
•
17 slides
More from ARISE analytics
(16)
【論文レベルで理解しよう!】 欠測値処理編 by ARISE analytics
【論文レベルで理解しよう!】 欠測値処理編
ARISE analytics
•
86 views
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編 by ARISE analytics
【論文レベルで理解しよう!】 大規模言語モデル(LLM)編
ARISE analytics
•
115 views
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (... by ARISE analytics
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
ARISE analytics
•
122 views
教師なしGNNによるIoTデバイスの異常通信検知の検討 by ARISE analytics
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics
•
1K views
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... by ARISE analytics
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics
•
574 views
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... by ARISE analytics
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics
•
464 views
【論文読み会】Autoregressive Diffusion Models.pptx by ARISE analytics
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics
•
5.3K views
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx by ARISE analytics
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics
•
552 views
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx by ARISE analytics
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics
•
494 views
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice by ARISE analytics
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics
•
698 views
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3) by ARISE analytics
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics
•
2.7K views
【論文読み会】On the Expressivity of Markov Reward by ARISE analytics
【論文読み会】On the Expressivity of Markov Reward
ARISE analytics
•
583 views
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive... by ARISE analytics
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics
•
698 views
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds by ARISE analytics
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics
•
699 views
Counterfaual Machine Learning(CFML)のサーベイ by ARISE analytics
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics
•
29.8K views
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features by ARISE analytics
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics
•
7.8K views
【論文読み会】Universal Language Model Fine-tuning for Text Classification
1.
©2018 ARISE analytics 2018/08/24 鶴野
瞬 論文読み会 Universal Language Model Fine-tuning for Text Classification
2.
©2018 ARISE analytics
2 概要 タイトル: Universal Language Model Fine-tuning for Text Classification 著者: Jeremy Howard, Sebastian Ruder https://arxiv.org/pdf/1801.06146.pdf 一言で言うと すごい点 感想 大規模コーパスで学習させた言語モデルを転移学習させる アノテーション無しの事前学習によって、分類タスクの精度が向 上 BERTなどに比べて精度向上幅は小さそうだが、少ない計算量で精 度改善できるのは魅力的 モチベーション 転移学習を使って高精度なテキスト分類モデルを簡単に作りたい
3.
©2018 ARISE analytics
3 本日の論文 主旨:転移学習を用いて、少量のデータでも高精度のテキスト分類モデルを構築する手法 (ULMFiT)を開発した 出典: https://arxiv.org/pdf/1801.06146.pdf Annual Meeting of the Association for Computational Linguistics (ACL 2018)に採択された
4.
©2018 ARISE analytics
4 自然言語処理(NLP)とは NLPとは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことである。 典型的なタスクには、テキスト分類や機械翻訳、質疑応答などがある。 • NLPの典型的なタスクとその応用例 機械翻訳: google翻訳 情報検索: google検索 言語モデリング: テキスト入力予測 テキスト分類: 記事のカテゴリ分け 質疑応答: チャットボット
5.
©2018 ARISE analytics
5 教師データが少ないときの対処方法 NLPタスクに取り組んでいて、教師データの入手に苦労した。 教師データが少ないときの対処方法の一つに、転移学習(Transfer learning)がある 出典: http://publications.idiap.ch/downloads/papers/2011/Tommasi_CVPR2010.pdf モデルの精度と訓練量の関係
6.
©2018 ARISE analytics
6 転移学習とは 転移学習とは、あるタスク/ドメインで学習させたモデルを別のタスク/ドメインに適応させる技術のことで ある 出典: https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf 通常の教師あり学習 転移学習
7.
©2018 ARISE analytics
7 転移学習の方法 典型的な転移学習の方法は、深層学習(DL)モデルを大きなデータセットで訓練した後、タスク用の データを使って出力近くの層を訓練し直すことである 出典: https://arxiv.org/pdf/1808.01974.pdf
8.
©2018 ARISE analytics
8 NLPにおける転移学習の例: word2vec NLPでよく使われる転移学習の例として、事前学習した単語ベクトルをモデルの入力層に用いることが ある。しかし、単語レベルの情報しか転移できない。 出典: https://www.aclweb.org/anthology/N13-1090 性別 単数/複数
9.
©2018 ARISE analytics
9 NLPにおける転移学習の例: CoVe より高次の転移学習としては、機械翻訳モデルのエンコーダー部分の出力を使った例がある。 しかし、タスクごとにモデルを作る必要がある。 Learned in Translation: Contextualized Word Vectors https://arxiv.org/abs/1708.00107
10.
©2018 ARISE analytics
10 言語モデルとは 言語モデルとは、ある単語列が与えられたときに次の単語を予測するモデルである。 教師ラベルを付与することなく構築でき、言語の高次な特徴を学習する。 ※http://ruder.io/transfer-learning/index.html 言語モデル タスク 言語モデルが学習する(と思われる)特徴※ • 言語の構造 • 単語間の関係、共起しやすさ • 文中で離れている単語間の依存 • etc 転移学習に用いられないか? 今日 の 昼食 は とんこつ __ • ラーメン 97% • うどん 2% • カレー 0.5% • … … 予測
11.
©2018 ARISE analytics
11 AWD-LSTM AWD-LSTMはRNNを用いた高精度な言語モデルである。 本日の論文で用いられている。 ※ https://arxiv.org/pdf/1708.02182.pdf LSTM LSTM LSTM モデルの構成 言語モデルの精度(perplexity)※
12.
©2018 ARISE analytics
12 ULMFiT 本論文で提案されたULMFiTとは、大量のテキストを使って言語モデルを訓練した後、転移学習によっ てタスク用の分類モデルを作成する汎用的な手法である。実現のために複数のテクニックを用いている。 出典: https://arxiv.org/pdf/1801.06146.pdf 言語モデル 事前訓練 言語モデル fine-tuning 分類モデル fine-tuning WikiText-103 (1億個以上の単語) タスクのテキスト タスクのテキスト+教師ラベル 使用 データ テクニック 学習率を層によって変 える(Discriminative fine-tuning) 学習率をイテレーション よって変える(Slanted triangular learning rates) 出力層側から徐々に解 凍する(Gradual unfreezing) 1 2 3
13.
©2018 ARISE analytics
13 fine-tuningのテクニック 上記テクニックによって、事前学習で学んだことを忘れないようにしながら、分類タスクにモデルを最適化 させることを狙っている 学習率を層によって変える (discr) 学習率をイテレーションよって変える (stlr) 学 習 率 大 小 出力層側から徐々に解凍する (freez) 解 凍 順 序 各層は異なる抽象度/情報を捉えるので、 それぞれに適した程度でチューニングする モデルのパラメータをタスク特異的な特徴 に適応させるため、はじめにパラメータ空間 内の探索領域を大きく変え、その後にゆっ くりと最適解を探索する 1 2 3 入力層に近いほど言語の一般的な情報 を捉えているので、それを忘れないように学 習する
14.
©2018 ARISE analytics
14 分類タスク 試したタスクは、感情分析、質問分類、トピック分類の3種類(6データセット)。 データセットのサイズ、分類クラス数は様々。
15.
©2018 ARISE analytics
15 ULMFiTモデルの分類精度 試したすべてのタスクにおいて、state-of-the-artの成績を達成した
16.
©2018 ARISE analytics
16 小さなデータセットに対する精度 ULMFiTを使うと、ゼロからモデルを訓練する場合に比べて数分の1から数百分の1のサイズのデータ セットで同等の精度を得られた 言語モデルのfine-tuning時に使用するデータによって、2つのシナリオを試している。supervised:ラベル付きデータ のみ、 semi-supervised:全データ fine-tuning用データのサイズと分類精度の関係 感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG) データサイズ 25k 5.5k 120k
17.
©2018 ARISE analytics
17 言語モデル事前学習の効果 言語モデルの事前学習は、分類モデルの精度向上に有用である。 影響の程度は小さなデータセットで顕著である。 事前学習の有無による分類精度の違い
18.
©2018 ARISE analytics
18 言語モデルの質の影響 言語モデルの質は分類モデルの精度に影響する。 影響の程度は小さなデータセットで顕著である。 Vanilla LMはAWD-LSTM LMからdropoutを除いたもの モデル構成による分類精度の違い
19.
©2018 ARISE analytics
19 言語モデルfine-tuningの効果 言語モデルのfine-tuningは、分類モデルの精度向上に有用である。 精度向上に学習率に関するテクニックが効果的である。 Fullは全層をfine-tuningすること 言語モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック 学習率を層によって変 える(discr) 学習率をイテレーション よって変える(stlr) 1 2
20.
©2018 ARISE analytics
20 分類モデルfine-tuningの効果 分類モデルのfine-tuningは、分類モデルの精度向上に有用である。 精度向上に開発したテクニックが効果的である。 Fullは初めから全層を解凍してfine-tuningすること 分類モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック 学習率を層によって変 える(discr) 学習率をイテレーション よって変える(stlr) 出力層側から徐々に解 凍する(freez) 1 2 3
21.
©2018 ARISE analytics
21 転移学習による忘却 分類モデルのfine-tuning時に上記のテクニックを使うことで、事前学習で学んだこと情報を忘れずに、 分類精度を向上させることができる fine-tuning用データのサイズと分類精度の関係 感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG) テクニック有 テクニック無 学習エポック エラー率
22.
©2018 ARISE analytics
22 類似の取り組み テキスト分類以外のタスク(含意、類似判定、Q&A)でも、言語モデルをベースにしたモデルを構築する ことで高い精度が得られる Improving Language Understanding by Generative Pre-Training https://openai.com/blog/language-unsupervised/ モデル構成とタスク用fine-tuning 含意タスクに対するモデルの精度 • 注意機構を持ったモデル(Transformer)を使用した • fine-tuning時にタスク用データの入力方法を工夫した