【論文読み会】Universal Language Model Fine-tuning for Text Classification

ARISE analytics
ARISE analyticsARISE analytics
©2018 ARISE analytics
2018/08/24
鶴野 瞬
論文読み会
Universal Language Model Fine-tuning for Text Classification
©2018 ARISE analytics 2
概要
タイトル: Universal Language Model Fine-tuning for Text Classification
著者: Jeremy Howard, Sebastian Ruder
https://arxiv.org/pdf/1801.06146.pdf
一言で言うと
すごい点
感想
大規模コーパスで学習させた言語モデルを転移学習させる
アノテーション無しの事前学習によって、分類タスクの精度が向
上
BERTなどに比べて精度向上幅は小さそうだが、少ない計算量で精
度改善できるのは魅力的
モチベーション 転移学習を使って高精度なテキスト分類モデルを簡単に作りたい
©2018 ARISE analytics 3
本日の論文
主旨:転移学習を用いて、少量のデータでも高精度のテキスト分類モデルを構築する手法
(ULMFiT)を開発した
出典: https://arxiv.org/pdf/1801.06146.pdf
Annual Meeting of the Association for Computational Linguistics (ACL 2018)に採択された
©2018 ARISE analytics 4
自然言語処理(NLP)とは
NLPとは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことである。
典型的なタスクには、テキスト分類や機械翻訳、質疑応答などがある。
• NLPの典型的なタスクとその応用例
 機械翻訳: google翻訳
 情報検索: google検索
 言語モデリング: テキスト入力予測
 テキスト分類: 記事のカテゴリ分け
 質疑応答: チャットボット
©2018 ARISE analytics 5
教師データが少ないときの対処方法
NLPタスクに取り組んでいて、教師データの入手に苦労した。
教師データが少ないときの対処方法の一つに、転移学習(Transfer learning)がある
出典: http://publications.idiap.ch/downloads/papers/2011/Tommasi_CVPR2010.pdf
モデルの精度と訓練量の関係
©2018 ARISE analytics 6
転移学習とは
転移学習とは、あるタスク/ドメインで学習させたモデルを別のタスク/ドメインに適応させる技術のことで
ある
出典: https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf
通常の教師あり学習 転移学習
©2018 ARISE analytics 7
転移学習の方法
典型的な転移学習の方法は、深層学習(DL)モデルを大きなデータセットで訓練した後、タスク用の
データを使って出力近くの層を訓練し直すことである
出典: https://arxiv.org/pdf/1808.01974.pdf
©2018 ARISE analytics 8
NLPにおける転移学習の例: word2vec
NLPでよく使われる転移学習の例として、事前学習した単語ベクトルをモデルの入力層に用いることが
ある。しかし、単語レベルの情報しか転移できない。
出典: https://www.aclweb.org/anthology/N13-1090
性別 単数/複数
©2018 ARISE analytics 9
NLPにおける転移学習の例: CoVe
より高次の転移学習としては、機械翻訳モデルのエンコーダー部分の出力を使った例がある。
しかし、タスクごとにモデルを作る必要がある。
Learned in Translation: Contextualized Word Vectors https://arxiv.org/abs/1708.00107
©2018 ARISE analytics 10
言語モデルとは
言語モデルとは、ある単語列が与えられたときに次の単語を予測するモデルである。
教師ラベルを付与することなく構築でき、言語の高次な特徴を学習する。
※http://ruder.io/transfer-learning/index.html
言語モデル タスク 言語モデルが学習する(と思われる)特徴※
• 言語の構造
• 単語間の関係、共起しやすさ
• 文中で離れている単語間の依存
• etc
転移学習に用いられないか?
今日 の 昼食 は とんこつ __
• ラーメン 97%
• うどん 2%
• カレー 0.5%
• … …
予測
©2018 ARISE analytics 11
AWD-LSTM
AWD-LSTMはRNNを用いた高精度な言語モデルである。
本日の論文で用いられている。
※ https://arxiv.org/pdf/1708.02182.pdf
LSTM
LSTM
LSTM
モデルの構成 言語モデルの精度(perplexity)※
©2018 ARISE analytics 12
ULMFiT
本論文で提案されたULMFiTとは、大量のテキストを使って言語モデルを訓練した後、転移学習によっ
てタスク用の分類モデルを作成する汎用的な手法である。実現のために複数のテクニックを用いている。
出典: https://arxiv.org/pdf/1801.06146.pdf
言語モデル
事前訓練
言語モデル
fine-tuning
分類モデル
fine-tuning
WikiText-103
(1億個以上の単語)
タスクのテキスト タスクのテキスト+教師ラベル
使用
データ
テクニック
学習率を層によって変
える(Discriminative
fine-tuning)
学習率をイテレーション
よって変える(Slanted
triangular learning
rates)
出力層側から徐々に解
凍する(Gradual
unfreezing)
1
2
3
©2018 ARISE analytics 13
fine-tuningのテクニック
上記テクニックによって、事前学習で学んだことを忘れないようにしながら、分類タスクにモデルを最適化
させることを狙っている
学習率を層によって変える
(discr)
学習率をイテレーションよって変える
(stlr)
学
習
率
大
小
出力層側から徐々に解凍する
(freez)
解
凍
順
序
各層は異なる抽象度/情報を捉えるので、
それぞれに適した程度でチューニングする
モデルのパラメータをタスク特異的な特徴
に適応させるため、はじめにパラメータ空間
内の探索領域を大きく変え、その後にゆっ
くりと最適解を探索する
1 2 3
入力層に近いほど言語の一般的な情報
を捉えているので、それを忘れないように学
習する
©2018 ARISE analytics 14
分類タスク
試したタスクは、感情分析、質問分類、トピック分類の3種類(6データセット)。
データセットのサイズ、分類クラス数は様々。
©2018 ARISE analytics 15
ULMFiTモデルの分類精度
試したすべてのタスクにおいて、state-of-the-artの成績を達成した
©2018 ARISE analytics 16
小さなデータセットに対する精度
ULMFiTを使うと、ゼロからモデルを訓練する場合に比べて数分の1から数百分の1のサイズのデータ
セットで同等の精度を得られた
言語モデルのfine-tuning時に使用するデータによって、2つのシナリオを試している。supervised:ラベル付きデータ
のみ、 semi-supervised:全データ
fine-tuning用データのサイズと分類精度の関係
感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG)
データサイズ 25k 5.5k 120k
©2018 ARISE analytics 17
言語モデル事前学習の効果
言語モデルの事前学習は、分類モデルの精度向上に有用である。
影響の程度は小さなデータセットで顕著である。
事前学習の有無による分類精度の違い
©2018 ARISE analytics 18
言語モデルの質の影響
言語モデルの質は分類モデルの精度に影響する。
影響の程度は小さなデータセットで顕著である。
Vanilla LMはAWD-LSTM LMからdropoutを除いたもの
モデル構成による分類精度の違い
©2018 ARISE analytics 19
言語モデルfine-tuningの効果
言語モデルのfine-tuningは、分類モデルの精度向上に有用である。
精度向上に学習率に関するテクニックが効果的である。
Fullは全層をfine-tuningすること
言語モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック
学習率を層によって変
える(discr)
学習率をイテレーション
よって変える(stlr)
1
2
©2018 ARISE analytics 20
分類モデルfine-tuningの効果
分類モデルのfine-tuningは、分類モデルの精度向上に有用である。
精度向上に開発したテクニックが効果的である。
Fullは初めから全層を解凍してfine-tuningすること
分類モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック
学習率を層によって変
える(discr)
学習率をイテレーション
よって変える(stlr)
出力層側から徐々に解
凍する(freez)
1
2
3
©2018 ARISE analytics 21
転移学習による忘却
分類モデルのfine-tuning時に上記のテクニックを使うことで、事前学習で学んだこと情報を忘れずに、
分類精度を向上させることができる
fine-tuning用データのサイズと分類精度の関係
感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG)
テクニック有
テクニック無
学習エポック
エラー率
©2018 ARISE analytics 22
類似の取り組み
テキスト分類以外のタスク(含意、類似判定、Q&A)でも、言語モデルをベースにしたモデルを構築する
ことで高い精度が得られる
Improving Language Understanding by Generative Pre-Training
https://openai.com/blog/language-unsupervised/
モデル構成とタスク用fine-tuning 含意タスクに対するモデルの精度
• 注意機構を持ったモデル(Transformer)を使用した
• fine-tuning時にタスク用データの入力方法を工夫した
【論文読み会】Universal Language Model Fine-tuning for Text Classification
1 of 23

Recommended

[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling by
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
2.9K views25 slides
Transformerを雰囲気で理解する by
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
4.7K views37 slides
Transformerを多層にする際の勾配消失問題と解決法について by
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
4.8K views16 slides
最近のDeep Learning (NLP) 界隈におけるAttention事情 by
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
72.3K views76 slides
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~ by
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~
SSII2019OS: 深層学習にかかる時間を短くしてみませんか? ~分散学習の勧め~SSII
10.6K views38 slides
【論文紹介】How Powerful are Graph Neural Networks? by
【論文紹介】How Powerful are Graph Neural Networks?【論文紹介】How Powerful are Graph Neural Networks?
【論文紹介】How Powerful are Graph Neural Networks?Masanao Ochi
3.9K views23 slides

More Related Content

What's hot

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 by
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Yusuke Uchida
16K views38 slides
backbone としての timm 入門 by
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門Takuji Tahara
7.4K views19 slides
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 by
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
3.8K views48 slides
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing by
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
3K views21 slides
情報検索とゼロショット学習 by
情報検索とゼロショット学習情報検索とゼロショット学習
情報検索とゼロショット学習kt.mako
2.2K views39 slides
Triplet Loss 徹底解説 by
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
11.4K views46 slides

What's hot(20)

Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 by Yusuke Uchida
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida16K views
backbone としての timm 入門 by Takuji Tahara
backbone としての timm 入門backbone としての timm 入門
backbone としての timm 入門
Takuji Tahara7.4K views
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法 by SSII
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII3.8K views
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing by Deep Learning JP
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP3K views
情報検索とゼロショット学習 by kt.mako
情報検索とゼロショット学習情報検索とゼロショット学習
情報検索とゼロショット学習
kt.mako2.2K views
Triplet Loss 徹底解説 by tancoro
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro11.4K views
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ... by Deep Learning JP
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning   画像×言語の大規模基盤モ...
【DL輪読会】Flamingo: a Visual Language Model for Few-Shot Learning 画像×言語の大規模基盤モ...
Deep Learning JP3.1K views
How Much Position Information Do Convolutional Neural Networks Encode? by Kazuyuki Miyazawa
How Much Position Information Do Convolutional Neural Networks Encode?How Much Position Information Do Convolutional Neural Networks Encode?
How Much Position Information Do Convolutional Neural Networks Encode?
Kazuyuki Miyazawa2.3K views
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? by Deep Learning JP
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP1.1K views
因果推論を用いた 群衆移動の誘導における介入効果推定 by Koh Takeuchi
因果推論を用いた 群衆移動の誘導における介入効果推定因果推論を用いた 群衆移動の誘導における介入効果推定
因果推論を用いた 群衆移動の誘導における介入効果推定
Koh Takeuchi364 views
[DL輪読会]Learning Latent Dynamics for Planning from Pixels by Deep Learning JP
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP3.9K views
近年のHierarchical Vision Transformer by Yusuke Uchida
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida13.8K views
畳み込みニューラルネットワークの高精度化と高速化 by Yusuke Uchida
畳み込みニューラルネットワークの高精度化と高速化畳み込みニューラルネットワークの高精度化と高速化
畳み込みニューラルネットワークの高精度化と高速化
Yusuke Uchida64.5K views
【DL輪読会】ViT + Self Supervised Learningまとめ by Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP4K views
【メタサーベイ】Video Transformer by cvpaper. challenge
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
cvpaper. challenge2.2K views
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演) by Shota Imai
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai2.3K views
【メタサーベイ】基盤モデル / Foundation Models by cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge16.4K views
モデルではなく、データセットを蒸留する by Takahiro Kubo
モデルではなく、データセットを蒸留するモデルではなく、データセットを蒸留する
モデルではなく、データセットを蒸留する
Takahiro Kubo7.8K views
[DLHacks]StyleGANとBigGANのStyle mixing, morphing by Deep Learning JP
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
Deep Learning JP14.2K views

Similar to 【論文読み会】Universal Language Model Fine-tuning for Text Classification

サービスのスケール化のための検索システム改善 by
サービスのスケール化のための検索システム改善サービスのスケール化のための検索システム改善
サービスのスケール化のための検索システム改善PIXTA Inc.
1.9K views46 slides
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~ by
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~Hinemos
4.1K views53 slides
【論文読み会】Self-Attention Generative Adversarial Networks by
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial NetworksARISE analytics
5.3K views23 slides
転移学習ランキング・ドメイン適応 by
転移学習ランキング・ドメイン適応転移学習ランキング・ドメイン適応
転移学習ランキング・ドメイン適応Elpo González Valbuena
1.1K views12 slides
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... by
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...ARISE analytics
183 views32 slides
Icml2018読み会_overview&GANs by
Icml2018読み会_overview&GANsIcml2018読み会_overview&GANs
Icml2018読み会_overview&GANsKentaro Tachibana
2.8K views37 slides

Similar to 【論文読み会】Universal Language Model Fine-tuning for Text Classification(9)

サービスのスケール化のための検索システム改善 by PIXTA Inc.
サービスのスケール化のための検索システム改善サービスのスケール化のための検索システム改善
サービスのスケール化のための検索システム改善
PIXTA Inc.1.9K views
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~ by Hinemos
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~
商用運用管理ツールからHinemos ver.6.0へ ~ 事例、移行ソリューション紹介~
Hinemos4.1K views
【論文読み会】Self-Attention Generative Adversarial Networks by ARISE analytics
【論文読み会】Self-Attention Generative  Adversarial Networks【論文読み会】Self-Attention Generative  Adversarial Networks
【論文読み会】Self-Attention Generative Adversarial Networks
ARISE analytics5.3K views
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho... by ARISE analytics
【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...【論文読み会】Signing at Scale: Learning to Co-Articulate  Signs for Large-Scale Pho...
【論文読み会】Signing at Scale: Learning to Co-Articulate Signs for Large-Scale Pho...
ARISE analytics183 views
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling- by Takahiro Kubo
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
言葉のもつ広がりを、モデルの学習に活かそう -one-hot to distribution in language modeling-
Takahiro Kubo37.9K views
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation by Kanji Takahashi
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
論文読み会 Data Augmentation for Low-Resource Neural Machine Translation
Kanji Takahashi1.7K views

More from ARISE analytics

【論文レベルで理解しよう!】​ 欠測値処理編​ by
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​ARISE analytics
86 views19 slides
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ by
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ARISE analytics
115 views20 slides
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (... by
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...ARISE analytics
122 views24 slides
教師なしGNNによるIoTデバイスの異常通信検知の検討 by
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討ARISE analytics
1K views21 slides
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... by
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...ARISE analytics
574 views18 slides
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... by
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...ARISE analytics
464 views17 slides

More from ARISE analytics(16)

【論文レベルで理解しよう!】​ 欠測値処理編​ by ARISE analytics
【論文レベルで理解しよう!】​ 欠測値処理編​【論文レベルで理解しよう!】​ 欠測値処理編​
【論文レベルで理解しよう!】​ 欠測値処理編​
ARISE analytics86 views
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​ by ARISE analytics
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
【論文レベルで理解しよう!】​ 大規模言語モデル(LLM)編​
ARISE analytics115 views
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (... by ARISE analytics
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
Hierarchical Metadata-Aware Document Categorization under Weak Supervision​ (...
ARISE analytics122 views
教師なしGNNによるIoTデバイスの異常通信検知の検討 by ARISE analytics
教師なしGNNによるIoTデバイスの異常通信検知の検討教師なしGNNによるIoTデバイスの異常通信検知の検討
教師なしGNNによるIoTデバイスの異常通信検知の検討
ARISE analytics1K views
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri... by ARISE analytics
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
【論文読み会】Pyraformer_Low-Complexity Pyramidal Attention for Long-Range Time Seri...
ARISE analytics574 views
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D... by ARISE analytics
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
【論文読み会】Analytic-DPM_an Analytic Estimate of the Optimal Reverse Variance in D...
ARISE analytics464 views
【論文読み会】Autoregressive Diffusion Models.pptx by ARISE analytics
【論文読み会】Autoregressive Diffusion Models.pptx【論文読み会】Autoregressive Diffusion Models.pptx
【論文読み会】Autoregressive Diffusion Models.pptx
ARISE analytics5.3K views
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx by ARISE analytics
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
ARISE analytics552 views
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx by ARISE analytics
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
【論文読み会】PiCO_Contrastive Label Disambiguation for Partial Label Learning.pptx
ARISE analytics494 views
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice by ARISE analytics
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
【論文読み会】Deep Reinforcement Learning at the Edge of the Statistical Precipice
ARISE analytics698 views
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3) by ARISE analytics
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
【論文読み会】Alias-Free Generative Adversarial Networks(StyleGAN3)
ARISE analytics2.7K views
【論文読み会】On the Expressivity of Markov Reward by ARISE analytics
【論文読み会】On the Expressivity of Markov Reward【論文読み会】On the Expressivity of Markov Reward
【論文読み会】On the Expressivity of Markov Reward
ARISE analytics583 views
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive... by ARISE analytics
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
【論文読み会】MAUVE: Measuring the Gap Between Neural Text and Human Text using Dive...
ARISE analytics698 views
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds by ARISE analytics
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
【論文読み会】Moser Flow: Divergence-based Generative Modeling on Manifolds
ARISE analytics699 views
Counterfaual Machine Learning(CFML)のサーベイ by ARISE analytics
Counterfaual Machine Learning(CFML)のサーベイCounterfaual Machine Learning(CFML)のサーベイ
Counterfaual Machine Learning(CFML)のサーベイ
ARISE analytics29.8K views
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features by ARISE analytics
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
【論文読み会】Deep Clustering for Unsupervised Learning of Visual Features
ARISE analytics7.8K views

【論文読み会】Universal Language Model Fine-tuning for Text Classification

  • 1. ©2018 ARISE analytics 2018/08/24 鶴野 瞬 論文読み会 Universal Language Model Fine-tuning for Text Classification
  • 2. ©2018 ARISE analytics 2 概要 タイトル: Universal Language Model Fine-tuning for Text Classification 著者: Jeremy Howard, Sebastian Ruder https://arxiv.org/pdf/1801.06146.pdf 一言で言うと すごい点 感想 大規模コーパスで学習させた言語モデルを転移学習させる アノテーション無しの事前学習によって、分類タスクの精度が向 上 BERTなどに比べて精度向上幅は小さそうだが、少ない計算量で精 度改善できるのは魅力的 モチベーション 転移学習を使って高精度なテキスト分類モデルを簡単に作りたい
  • 3. ©2018 ARISE analytics 3 本日の論文 主旨:転移学習を用いて、少量のデータでも高精度のテキスト分類モデルを構築する手法 (ULMFiT)を開発した 出典: https://arxiv.org/pdf/1801.06146.pdf Annual Meeting of the Association for Computational Linguistics (ACL 2018)に採択された
  • 4. ©2018 ARISE analytics 4 自然言語処理(NLP)とは NLPとは、人間が日常的に使っている自然言語をコンピュータに処理させる一連の技術のことである。 典型的なタスクには、テキスト分類や機械翻訳、質疑応答などがある。 • NLPの典型的なタスクとその応用例  機械翻訳: google翻訳  情報検索: google検索  言語モデリング: テキスト入力予測  テキスト分類: 記事のカテゴリ分け  質疑応答: チャットボット
  • 5. ©2018 ARISE analytics 5 教師データが少ないときの対処方法 NLPタスクに取り組んでいて、教師データの入手に苦労した。 教師データが少ないときの対処方法の一つに、転移学習(Transfer learning)がある 出典: http://publications.idiap.ch/downloads/papers/2011/Tommasi_CVPR2010.pdf モデルの精度と訓練量の関係
  • 6. ©2018 ARISE analytics 6 転移学習とは 転移学習とは、あるタスク/ドメインで学習させたモデルを別のタスク/ドメインに適応させる技術のことで ある 出典: https://www.cse.ust.hk/~qyang/Docs/2009/tkde_transfer_learning.pdf 通常の教師あり学習 転移学習
  • 7. ©2018 ARISE analytics 7 転移学習の方法 典型的な転移学習の方法は、深層学習(DL)モデルを大きなデータセットで訓練した後、タスク用の データを使って出力近くの層を訓練し直すことである 出典: https://arxiv.org/pdf/1808.01974.pdf
  • 8. ©2018 ARISE analytics 8 NLPにおける転移学習の例: word2vec NLPでよく使われる転移学習の例として、事前学習した単語ベクトルをモデルの入力層に用いることが ある。しかし、単語レベルの情報しか転移できない。 出典: https://www.aclweb.org/anthology/N13-1090 性別 単数/複数
  • 9. ©2018 ARISE analytics 9 NLPにおける転移学習の例: CoVe より高次の転移学習としては、機械翻訳モデルのエンコーダー部分の出力を使った例がある。 しかし、タスクごとにモデルを作る必要がある。 Learned in Translation: Contextualized Word Vectors https://arxiv.org/abs/1708.00107
  • 10. ©2018 ARISE analytics 10 言語モデルとは 言語モデルとは、ある単語列が与えられたときに次の単語を予測するモデルである。 教師ラベルを付与することなく構築でき、言語の高次な特徴を学習する。 ※http://ruder.io/transfer-learning/index.html 言語モデル タスク 言語モデルが学習する(と思われる)特徴※ • 言語の構造 • 単語間の関係、共起しやすさ • 文中で離れている単語間の依存 • etc 転移学習に用いられないか? 今日 の 昼食 は とんこつ __ • ラーメン 97% • うどん 2% • カレー 0.5% • … … 予測
  • 11. ©2018 ARISE analytics 11 AWD-LSTM AWD-LSTMはRNNを用いた高精度な言語モデルである。 本日の論文で用いられている。 ※ https://arxiv.org/pdf/1708.02182.pdf LSTM LSTM LSTM モデルの構成 言語モデルの精度(perplexity)※
  • 12. ©2018 ARISE analytics 12 ULMFiT 本論文で提案されたULMFiTとは、大量のテキストを使って言語モデルを訓練した後、転移学習によっ てタスク用の分類モデルを作成する汎用的な手法である。実現のために複数のテクニックを用いている。 出典: https://arxiv.org/pdf/1801.06146.pdf 言語モデル 事前訓練 言語モデル fine-tuning 分類モデル fine-tuning WikiText-103 (1億個以上の単語) タスクのテキスト タスクのテキスト+教師ラベル 使用 データ テクニック 学習率を層によって変 える(Discriminative fine-tuning) 学習率をイテレーション よって変える(Slanted triangular learning rates) 出力層側から徐々に解 凍する(Gradual unfreezing) 1 2 3
  • 13. ©2018 ARISE analytics 13 fine-tuningのテクニック 上記テクニックによって、事前学習で学んだことを忘れないようにしながら、分類タスクにモデルを最適化 させることを狙っている 学習率を層によって変える (discr) 学習率をイテレーションよって変える (stlr) 学 習 率 大 小 出力層側から徐々に解凍する (freez) 解 凍 順 序 各層は異なる抽象度/情報を捉えるので、 それぞれに適した程度でチューニングする モデルのパラメータをタスク特異的な特徴 に適応させるため、はじめにパラメータ空間 内の探索領域を大きく変え、その後にゆっ くりと最適解を探索する 1 2 3 入力層に近いほど言語の一般的な情報 を捉えているので、それを忘れないように学 習する
  • 14. ©2018 ARISE analytics 14 分類タスク 試したタスクは、感情分析、質問分類、トピック分類の3種類(6データセット)。 データセットのサイズ、分類クラス数は様々。
  • 15. ©2018 ARISE analytics 15 ULMFiTモデルの分類精度 試したすべてのタスクにおいて、state-of-the-artの成績を達成した
  • 16. ©2018 ARISE analytics 16 小さなデータセットに対する精度 ULMFiTを使うと、ゼロからモデルを訓練する場合に比べて数分の1から数百分の1のサイズのデータ セットで同等の精度を得られた 言語モデルのfine-tuning時に使用するデータによって、2つのシナリオを試している。supervised:ラベル付きデータ のみ、 semi-supervised:全データ fine-tuning用データのサイズと分類精度の関係 感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG) データサイズ 25k 5.5k 120k
  • 17. ©2018 ARISE analytics 17 言語モデル事前学習の効果 言語モデルの事前学習は、分類モデルの精度向上に有用である。 影響の程度は小さなデータセットで顕著である。 事前学習の有無による分類精度の違い
  • 18. ©2018 ARISE analytics 18 言語モデルの質の影響 言語モデルの質は分類モデルの精度に影響する。 影響の程度は小さなデータセットで顕著である。 Vanilla LMはAWD-LSTM LMからdropoutを除いたもの モデル構成による分類精度の違い
  • 19. ©2018 ARISE analytics 19 言語モデルfine-tuningの効果 言語モデルのfine-tuningは、分類モデルの精度向上に有用である。 精度向上に学習率に関するテクニックが効果的である。 Fullは全層をfine-tuningすること 言語モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック 学習率を層によって変 える(discr) 学習率をイテレーション よって変える(stlr) 1 2
  • 20. ©2018 ARISE analytics 20 分類モデルfine-tuningの効果 分類モデルのfine-tuningは、分類モデルの精度向上に有用である。 精度向上に開発したテクニックが効果的である。 Fullは初めから全層を解凍してfine-tuningすること 分類モデルfine-tuningの各テクニックが分類精度に与える影響 テクニック 学習率を層によって変 える(discr) 学習率をイテレーション よって変える(stlr) 出力層側から徐々に解 凍する(freez) 1 2 3
  • 21. ©2018 ARISE analytics 21 転移学習による忘却 分類モデルのfine-tuning時に上記のテクニックを使うことで、事前学習で学んだこと情報を忘れずに、 分類精度を向上させることができる fine-tuning用データのサイズと分類精度の関係 感情分析(IMDb) 質問分類(TREC-6) トピック分類(AG) テクニック有 テクニック無 学習エポック エラー率
  • 22. ©2018 ARISE analytics 22 類似の取り組み テキスト分類以外のタスク(含意、類似判定、Q&A)でも、言語モデルをベースにしたモデルを構築する ことで高い精度が得られる Improving Language Understanding by Generative Pre-Training https://openai.com/blog/language-unsupervised/ モデル構成とタスク用fine-tuning 含意タスクに対するモデルの精度 • 注意機構を持ったモデル(Transformer)を使用した • fine-tuning時にタスク用データの入力方法を工夫した