SlideShare a Scribd company logo
1 of 22
Download to read offline
1
Using millions of emoji occurrences to learn any-domain
representations for detecting sentiment, emotion and sarcasm
東京大学	松尾研			曽根岡	侑也
メタ情報
• 著者
- Bjarke Felbo, Alan Mislove, Anders Søgaard, Iyad Rahwan, Sune Lehmann
- MIT Media LabのPhD
• EMNLP 2017
• Twitterとかで少し話題になっていた
2
概要
• 感情分析、センチメント分析、皮肉分類において、

絵文字付きの16億ツイートでPretrainingさせ、転移学習を行なったところ、

8つのベンチマークでSotA達成
• 転移学習方法のChainThawを提案
• Pretraining時のラベルの多様性とAttention + Skip Connectionの重要性を示す
• Pretraining済みモデルを公開
3
背景
• NLPのタスクは、アノテーション済みのデータが少ない
• テキストに付与されている感情表現(顔文字・絵文字・ハッシュタグ)は

Distant Supervisionで用いられ、SotAを達成している先行研究がある
※ Distant Supervision
間接的なラベルを用いてラベルなしデータをラベルありデータとして用いる学習法
4
emoticon emoji hashtag
#happy
# nice
本研究
• モデル:DeepMoji
- BiLSTM ✕ 2 + Attention + SkipConnection
• Pretraining:Emojiが付いた大量のTweet
- テキストから64種類の絵文字を当てる分類問題
• TransferLearning:ベンチマークのデータセット
- 3タスク, 8種類
- ChainThawの提案
5
DeepMoji
Pretraining
• データ:Emoji付き12億Tweet(2013/1~2017/6)
- 1つの文に復数個のEmoji, 別データとして保存
- URL・メンション・数字は1つのtokenに
• 結果:64種類の絵文字分類
6
※ fasttext:facebookのライブラリ。分散表現獲得・分類を高速でできる
→ LSTM層重要
Pretraining:結果
7
Pretraining:デモ
https://deepmoji.mit.edu/
8
TransferLearning:提案手法
次の手順で1層ずつFine-tuningするChainThawを提案
9
①最後の層 ②最初の層 ③他の層を個別に ④全体
TransferLearning:ベンチマーク
3タスク、5ドメインに渡る8つのベンチマークでSotAの手法と比較実験
10
※ Olympic, PsychExpはあまり使われないデータ
使用したベンチマーク一覧
TransferLearning:結果
DeepMoji ✕ ChainThawがSotAを圧倒
11
各ベンチマークでのDeepMojiとSotAの結果
分析①:emojiの多様性
• Pretrainingの際のラベルの多様性が重要か検証
• 8種類のサブセットと64種類のフルセットを用いてPretrainingし比較
12
8種類 64種類
分析①:emojiの多様性
• Pretrainingの際のラベルの多様性が重要か検証
• 64種類の絵文字の細かいニュアンスを学習できていることが関係している
13
テストセットでの分類時の共起を用いた階層クラスタリング
分析②:モデルアーキテクチャ
• AttentionとSkipConnectionがないLSTMと比較
• Pretrainingでは差がないが、ベンチマークではAttentionありが精度高い
• 低層の特徴へのアクセスが担保、勾配消失がなく学習できることが関係(FW)
14
Attention
+ skip
分析③:Pretrainingの効果
• Word Coverageの改善
- small dataの場合、テストセットには出るが訓練セットには出ない単語がある
- pretraining + chainthawによって語彙が増加しWord Coverageが改善
• Phrase Coverageの改善
- fasttextとDeepMojiを比較
- f:63%, D:93%
- LSTM層がフレーズを学習
15
Word Coverageの変化
分析④:人間と比較
• 新データセット:TweetをAMTでアノテーション
- 10人に「1~9 or わからない」で評価
- 9人の平均がGround truthとし、残りの一人と比較
- 7347(うち、テストが2347)
• 結果
- 人間 76.1%, Deep Moji 82.4%でDeepMojiの精度のほうが高い
16
まとめ
• 感情分析、センチメント分析、皮肉分類において、

絵文字付きの16億ツイートでPretrainingさせ、転移学習を行なったところ、

8つのベンチマークでSotA達成
• 転移学習方法のChainThawを提案
• Pretraining時のラベルの多様性とAttention + Skip Connectionの重要性を示す
• Pretraining済みモデルを公開
17
Appendix
18
先行研究
• 大半の先行研究は感情表現と該当する感情のマッチングを手作業で行っている
- 難しい、時間もかかる、多様な意味を包含できない等の問題あり
• emojiの解説文を用いてembeddingする手法
- emojiの多用的な使われ方を反映しない
• 転移方法としてマルチタスク学習を使う手法
- メモリやストレージ的に負担が大きい
19
Pretraining
• データ:Emoji付き12億Tweet(2013/1~2017/6)
- 1つの文に復数個のEmoji, 別データとして保存
- URL・メンション・数字は1つのtokenに
- 同じ文字の繰り返し除去('loooool'等)
• 結果:64種類の絵文字分類
20
TransferLearning:タスク
• 感情分析(Emotion)
- テキストからFear, Joy, Sadnessなどの感情に分類する
• センチメント分析(Sentiment)
- テキストからポジティブ・ネガティブ・中立などを分類する
• 皮肉分類(Sarcasm)
- テキストから皮肉が入っているかいなかの2値分類を行う
21
TransferLearning:ベンチマーク詳細
• 感情分析(SotA:valence-arousal-dominance)
- SemEval2007 Task14:1250, [Fear, Joy, Sadness]のみ使用(95%を締める)
- tweets about Olympic game
- 心理学のデータ
• センチメント分析(SotA:CNNのEnsembleモデル with pretraining)
- SentiStrength(SS-Twitter):binaryでrelabeling
- SentiStrength(SS-youtube):binaryでrelabeling
- SemEval2016 Task4A:DataDecay(Twitterのデータ,15%が消去されている)
• 皮肉推定(SotA:embeddingベースのモデル)
- Internet Argument Corpus(ver. 1, 2):サブセットしか公開されていない
22

More Related Content

What's hot

子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得Yuya Unno
 
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Yuya Unno
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考えるYoshitaka Ushiku
 
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―Tadahiro Taniguchi
 
20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】RyuzoYamate
 
TensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみたTensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみたMitsuki Ogasahara
 
ソフトウェア工学におけるAIの学習方法
ソフトウェア工学におけるAIの学習方法ソフトウェア工学におけるAIの学習方法
ソフトウェア工学におけるAIの学習方法mack05410
 
テキストマイニング講義資料
テキストマイニング講義資料テキストマイニング講義資料
テキストマイニング講義資料Kosuke Sato
 
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料tetsuro ito
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場Yuya Unno
 
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10Hiroaki Sugiyama
 
TensorFlow on Mobile
TensorFlow on MobileTensorFlow on Mobile
TensorFlow on Mobile新 古川
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)Yoshitaka Ushiku
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システムTomoyuki Kajiwara
 

What's hot (15)

子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
 
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
 
今後のPRMU研究会を考える
今後のPRMU研究会を考える今後のPRMU研究会を考える
今後のPRMU研究会を考える
 
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
 
20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】
 
TensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみたTensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみた
 
ソフトウェア工学におけるAIの学習方法
ソフトウェア工学におけるAIの学習方法ソフトウェア工学におけるAIの学習方法
ソフトウェア工学におけるAIの学習方法
 
テキストマイニング講義資料
テキストマイニング講義資料テキストマイニング講義資料
テキストマイニング講義資料
 
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
 
ピーFIの研究開発現場
ピーFIの研究開発現場ピーFIの研究開発現場
ピーFIの研究開発現場
 
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10
 
TensorFlow on Mobile
TensorFlow on MobileTensorFlow on Mobile
TensorFlow on Mobile
 
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
 
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
 
Lt20101106
Lt20101106Lt20101106
Lt20101106
 

Recently uploaded

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成Hiroshi Tomioka
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 

Recently uploaded (9)

CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 

[DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm