Submit Search
Upload
[DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
•
5 likes
•
1,061 views
Yuya Soneoka
Follow
2017/12/15 Deep Learning JP: http://deeplearning.jp/seminar-2/
Read less
Read more
Technology
Report
Share
Report
Share
1 of 22
Download now
Download to read offline
Recommended
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
Yuta Yamashita
次元の呪い
次元の呪い
Kosuke Tsujino
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Yuya Unno
プログラミング言語の習得順番について
プログラミング言語の習得順番について
ichigats
Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Yoshitaka Ushiku
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
Yuya Unno
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
Yuta Matsunaga
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
Tadahiro Taniguchi
Recommended
DeepLearning 中心に見る最近の論文事情
DeepLearning 中心に見る最近の論文事情
Yuta Yamashita
次元の呪い
次元の呪い
Kosuke Tsujino
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
Yuya Unno
プログラミング言語の習得順番について
プログラミング言語の習得順番について
ichigats
Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Generating Notifications for Missing Actions:Don’t forget to turn the lights...
Yoshitaka Ushiku
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
Yuya Unno
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
Yuta Matsunaga
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
Os 12 記号創発ロボティクス / OS趣旨説明@JSAI2015
Tadahiro Taniguchi
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
Yuya Unno
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
今後のPRMU研究会を考える
今後のPRMU研究会を考える
Yoshitaka Ushiku
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
Tadahiro Taniguchi
20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】
RyuzoYamate
TensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみた
Mitsuki Ogasahara
ソフトウェア工学におけるAIの学習方法
ソフトウェア工学におけるAIの学習方法
mack05410
テキストマイニング講義資料
テキストマイニング講義資料
Kosuke Sato
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
tetsuro ito
ピーFIの研究開発現場
ピーFIの研究開発現場
Yuya Unno
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10
Hiroaki Sugiyama
TensorFlow on Mobile
TensorFlow on Mobile
新 古川
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
Yoshitaka Ushiku
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Tomoyuki Kajiwara
Lt20101106
Lt20101106
and hyphen
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
Hiroshi Tomioka
More Related Content
What's hot
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
Yuya Unno
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
Yuya Unno
今後のPRMU研究会を考える
今後のPRMU研究会を考える
Yoshitaka Ushiku
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
Tadahiro Taniguchi
20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】
RyuzoYamate
TensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみた
Mitsuki Ogasahara
ソフトウェア工学におけるAIの学習方法
ソフトウェア工学におけるAIの学習方法
mack05410
テキストマイニング講義資料
テキストマイニング講義資料
Kosuke Sato
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
tetsuro ito
ピーFIの研究開発現場
ピーFIの研究開発現場
Yuya Unno
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10
Hiroaki Sugiyama
TensorFlow on Mobile
TensorFlow on Mobile
新 古川
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
Yoshitaka Ushiku
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Tomoyuki Kajiwara
Lt20101106
Lt20101106
and hyphen
What's hot
(15)
子供の言語獲得と機械の言語獲得
子供の言語獲得と機械の言語獲得
Chainerのテスト環境とDockerでのCUDAの利用
Chainerのテスト環境とDockerでのCUDAの利用
今後のPRMU研究会を考える
今後のPRMU研究会を考える
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
記号を用いたコミュニケーションを実現するために何が必要か?― 記号創発ロボティクスの 視点から ―
20210828 ポリモーフィズムってなに?【lt用】
20210828 ポリモーフィズムってなに?【lt用】
TensorFlowをざっくりLTしてみた
TensorFlowをざっくりLTしてみた
ソフトウェア工学におけるAIの学習方法
ソフトウェア工学におけるAIの学習方法
テキストマイニング講義資料
テキストマイニング講義資料
集合知プログラミング勉強会キックオフMTG LT用資料
集合知プログラミング勉強会キックオフMTG LT用資料
ピーFIの研究開発現場
ピーFIの研究開発現場
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10
TensorFlow on Mobile
TensorFlow on Mobile
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
ごあいさつ 或いはMATLAB教徒がPythonistaに改宗した話 (関東CV勉強会)
20150702文章読解支援のための日本語の語彙平易化システム
20150702文章読解支援のための日本語の語彙平易化システム
Lt20101106
Lt20101106
Recently uploaded
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
Hiroshi Tomioka
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
Recently uploaded
(9)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版) 2024年4月作成
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
[DL輪読会] Using millions of emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm
1.
1 Using millions of
emoji occurrences to learn any-domain representations for detecting sentiment, emotion and sarcasm 東京大学 松尾研 曽根岡 侑也
2.
メタ情報 • 著者 - Bjarke
Felbo, Alan Mislove, Anders Søgaard, Iyad Rahwan, Sune Lehmann - MIT Media LabのPhD • EMNLP 2017 • Twitterとかで少し話題になっていた 2
3.
概要 • 感情分析、センチメント分析、皮肉分類において、 絵文字付きの16億ツイートでPretrainingさせ、転移学習を行なったところ、 8つのベンチマークでSotA達成 • 転移学習方法のChainThawを提案 •
Pretraining時のラベルの多様性とAttention + Skip Connectionの重要性を示す • Pretraining済みモデルを公開 3
4.
背景 • NLPのタスクは、アノテーション済みのデータが少ない • テキストに付与されている感情表現(顔文字・絵文字・ハッシュタグ)は Distant
Supervisionで用いられ、SotAを達成している先行研究がある ※ Distant Supervision 間接的なラベルを用いてラベルなしデータをラベルありデータとして用いる学習法 4 emoticon emoji hashtag #happy # nice
5.
本研究 • モデル:DeepMoji - BiLSTM
✕ 2 + Attention + SkipConnection • Pretraining:Emojiが付いた大量のTweet - テキストから64種類の絵文字を当てる分類問題 • TransferLearning:ベンチマークのデータセット - 3タスク, 8種類 - ChainThawの提案 5 DeepMoji
6.
Pretraining • データ:Emoji付き12億Tweet(2013/1~2017/6) - 1つの文に復数個のEmoji,
別データとして保存 - URL・メンション・数字は1つのtokenに • 結果:64種類の絵文字分類 6 ※ fasttext:facebookのライブラリ。分散表現獲得・分類を高速でできる → LSTM層重要
7.
Pretraining:結果 7
8.
Pretraining:デモ https://deepmoji.mit.edu/ 8
9.
TransferLearning:提案手法 次の手順で1層ずつFine-tuningするChainThawを提案 9 ①最後の層 ②最初の層 ③他の層を個別に
④全体
10.
TransferLearning:ベンチマーク 3タスク、5ドメインに渡る8つのベンチマークでSotAの手法と比較実験 10 ※ Olympic, PsychExpはあまり使われないデータ 使用したベンチマーク一覧
11.
TransferLearning:結果 DeepMoji ✕ ChainThawがSotAを圧倒 11 各ベンチマークでのDeepMojiとSotAの結果
12.
分析①:emojiの多様性 • Pretrainingの際のラベルの多様性が重要か検証 • 8種類のサブセットと64種類のフルセットを用いてPretrainingし比較 12 8種類
64種類
13.
分析①:emojiの多様性 • Pretrainingの際のラベルの多様性が重要か検証 • 64種類の絵文字の細かいニュアンスを学習できていることが関係している 13 テストセットでの分類時の共起を用いた階層クラスタリング
14.
分析②:モデルアーキテクチャ • AttentionとSkipConnectionがないLSTMと比較 • Pretrainingでは差がないが、ベンチマークではAttentionありが精度高い •
低層の特徴へのアクセスが担保、勾配消失がなく学習できることが関係(FW) 14 Attention + skip
15.
分析③:Pretrainingの効果 • Word Coverageの改善 -
small dataの場合、テストセットには出るが訓練セットには出ない単語がある - pretraining + chainthawによって語彙が増加しWord Coverageが改善 • Phrase Coverageの改善 - fasttextとDeepMojiを比較 - f:63%, D:93% - LSTM層がフレーズを学習 15 Word Coverageの変化
16.
分析④:人間と比較 • 新データセット:TweetをAMTでアノテーション - 10人に「1~9
or わからない」で評価 - 9人の平均がGround truthとし、残りの一人と比較 - 7347(うち、テストが2347) • 結果 - 人間 76.1%, Deep Moji 82.4%でDeepMojiの精度のほうが高い 16
17.
まとめ • 感情分析、センチメント分析、皮肉分類において、 絵文字付きの16億ツイートでPretrainingさせ、転移学習を行なったところ、 8つのベンチマークでSotA達成 • 転移学習方法のChainThawを提案 •
Pretraining時のラベルの多様性とAttention + Skip Connectionの重要性を示す • Pretraining済みモデルを公開 17
18.
Appendix 18
19.
先行研究 • 大半の先行研究は感情表現と該当する感情のマッチングを手作業で行っている - 難しい、時間もかかる、多様な意味を包含できない等の問題あり •
emojiの解説文を用いてembeddingする手法 - emojiの多用的な使われ方を反映しない • 転移方法としてマルチタスク学習を使う手法 - メモリやストレージ的に負担が大きい 19
20.
Pretraining • データ:Emoji付き12億Tweet(2013/1~2017/6) - 1つの文に復数個のEmoji,
別データとして保存 - URL・メンション・数字は1つのtokenに - 同じ文字の繰り返し除去('loooool'等) • 結果:64種類の絵文字分類 20
21.
TransferLearning:タスク • 感情分析(Emotion) - テキストからFear,
Joy, Sadnessなどの感情に分類する • センチメント分析(Sentiment) - テキストからポジティブ・ネガティブ・中立などを分類する • 皮肉分類(Sarcasm) - テキストから皮肉が入っているかいなかの2値分類を行う 21
22.
TransferLearning:ベンチマーク詳細 • 感情分析(SotA:valence-arousal-dominance) - SemEval2007
Task14:1250, [Fear, Joy, Sadness]のみ使用(95%を締める) - tweets about Olympic game - 心理学のデータ • センチメント分析(SotA:CNNのEnsembleモデル with pretraining) - SentiStrength(SS-Twitter):binaryでrelabeling - SentiStrength(SS-youtube):binaryでrelabeling - SemEval2016 Task4A:DataDecay(Twitterのデータ,15%が消去されている) • 皮肉推定(SotA:embeddingベースのモデル) - Internet Argument Corpus(ver. 1, 2):サブセットしか公開されていない 22
Download now