Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
DEIM 2016
単語・パラグラフの分散表現を⽤いた
Twitterからの⽇本語評判情報抽出
2016.2.29
奈良先端科学技術⼤学院⼤学情報科学研究科
知能コミュニケーション研究室・NAISTビッグデータプロジェクト
芥⼦ 育雄 鈴⽊ 優...
DEIM 2016
本発表の背景
•  背景1:⽂書の分散表現をニューラルネットで学習できる
    パラグラフベクトルの提案 [Le, Mikolov, 2014.]
– 英語の感情分析ベンチマークを⽤いてState-of-the-Artの精...
DEIM 2016
本発表の概要
•  Ph.D研究の⽬的:意味ベクトルとパラグラフベクトルを統合し,
可読性の⾼いベクトルを⾃動で学習
•  本発表(Ph.D研究の第⼀段階):
–  クラウドソーシングを利⽤してTwitterの⽇本語極性判定...
DEIM 2016
Twitterからの⽇本語評判情報抽出
-企業における⽤途-
•  テレビでの紹介やメディア報道に対してのリアルタイムの反響調査
•  ⼀定期間の広告などプロモーション効果の測定
•  ライバル製品との⽐較や製品品質に関する...
DEIM 2016
Twitterからの顧客の声(VoC)抽出
-ツイート解析の要件と解決策-
•  同じ意味の⾔葉のグルーピング
– ⼤量ラベル無しツイートによる単語ベクトルの学習
•  Twitterならではの表現,機能表現や係り受けを
踏...
DEIM 2016
提案⼿法-Twitterからの⽇本語評判
情報抽出(提案システム)-
•  訓練セット:
–  ラベルありツイートと
⼤量のラベル無し
ツイート
•  提案システムの流れ:
–  実線:訓練セット
(ツイート)の流れ
–  ...
DEIM 2016
提案⼿法-パラグラフベクトル-
•  PV-DMモデル:⽂脈ベクトルと次単語のベクトルとの内積が,周辺単語以外の単語ベクトルとの
内積より⼤きくなるように次単語のベクトルを予測
•  PV-DBOWモデル:パラグラフベクトル...
DEIM 2016
提案⼿法-基本単語の意味ベクトル-
•  意味ベクトル
–  階層的に266種類の概念分類を特徴単語として選択
–  約2万語の基本単語に対して,各特徴単語との意味的・連想的関係を266次元の
ベクトルで表現(基本単語が特徴...
DEIM 2016
提案⼿法-基本単語の意味ベクトル
(特徴単語)からパラグラフベクトルの学習
•  ツイート中の基本単語を特徴単語に展開し,ツイートの⽂脈情報を表現
–  パラグラフの意味ベクトル学習にPV-DBOWを活⽤
–  特徴単語に展...
DEIM 2016
Twitterからの⽇本語評判情報抽出の
実験-⼿順-
•  ⽬的:
–  商品企画や品質サポートにとって有益な個⼈の意⾒を
Twitterから抽出
•  対象:
–  2種類のスマートフォン製品ブランド(製品A, 製品B)...
DEIM 2016
ベンチマーク
•  約3万5千ツイートに対し,クラウドソーシングを利⽤して各ツイート5⼈の作業者
–  ラベル付与の費⽤は約2万円(現実的な予算で構築可能)
–  複数のラベルが1位で同数投票された“その他”のツイートや“無...
DEIM 2016
実験⽅法
1)  ベースライン(BoW)の評価実験
–  訓練セットとテストセット両⽅の語彙がBoWの次元
–  各ツイートから抽出された語彙の頻度がBoWの値
–  訓練セットのBoWに対して
4分割交差検定とグリッドサー...
DEIM 2016
実験⽅法-提案⼿法-
3)  提案⼿法の評価実験
–  PVECの評価実験に追加して,
–  ラベル無しツイート中に含まれる基本単語を特徴単語に展開,
単語ベクトルをPV-DBOWで学習
–  訓練セット,テストセットを順に...
DEIM 2016
評価結果
14	
4. A
BoW 57.5% 58.6% 73.9% 78.1%
PVEC 62.4% 62.3% 78.9% 80.1%
63.4% 64.7% 79.6% 81.0%
5. B
BoW 61.8% 65...
DEIM 2016
考察
-ベンチマークサイズについて-
15	
•  製品Bの訓練・テストセットを75%, 50%に削減した時のテストセットの評価
–  提案⼿法による精度改善はベンチマークサイズに依存しない
製品Aを含めて
平均2.3%向上...
DEIM 2016
考察
-⼤規模な単語ベクトルの学習効果-
•  製品Bで⼤規模なラベル無しツイートの
単語ベクトルを初期値としなかった場合の評価
– 提案⼿法:平均4.0%,PVEC:平均4.6%精度が下がり,
単語ベクトルの効果あり
16...
DEIM 2016
考察
-提案⼿法の成功例,失敗例-
•  提案⼿法により分類が正解に変わったツイート数,不正解に変わったツイート数
17	
  不正解→正解 正解→不正解
ポジティブ 103 60
ネガティブ 54 54
ニュートラル 10...
DEIM 2016
まとめ
•  Twitterからの⽇本語評判情報抽出システムを提案
–  パラグラフベクトルはベースライン(BoW)に対して,
極性判定の精度が平均2.3%向上
–  意味ベクトル辞書を⽤いることにより,パラグラフベクトルに...
DEIM 2016
今後の展開
•  特徴抽出(PVEC,提案⼿法)を後段の教師あり学習からの
フィードバックループに⼊れる
– 誰でも扱えるツール化
– さらなる精度向上
•  単語ベクトルの初期値として,意味ベクトルを与える
– 可読性の⾼...
Upcoming SlideShare
Loading in …5
×

単語・パラグラフの分散表現を用いたTwitterからの日本語評判情報抽出

2,790 views

Published on

LeとMikolovは文書の分散表現を単語と同様にニューラルネットで学習できるパラグラフベクトルのモデルを提案し,英語の感情分析(ポジティブ,ネガティブ,ニュートラル等の極性判定)ベンチマークを用いてState-of-the-Artの精度を示した.実用上の課題は,性能改善に必要な分散表現(ベクトル)の可読性である.
著者らは過去に単語の意味ベクトルとブートストラップ学習を提案した.意味ベクトルの次元は266種類の特徴単語に対応し,基本単語約2万語については専門家が特徴単語を付与した.意味ベクトルとパラグラフベクトルを統合し,可読性の高いベクトルを自動で学習させることを研究の目的としている.本発表では,クラウドソーシングを利用してTwitterの日本語極性判定ベンチマークを作成し,ツイート中に出現する基本単語を特徴単語に展開することにより,評価実験の結果,パラグラフベクトルによる極性判定の精度を平均2.3%上回ることを確認した.提案手法は,ポジティブ・ネガティブの極性判定では84.5%,ニュートラルを含めた極性判定は67.5%の精度を示した.

Published in: Science
  • Be the first to comment

単語・パラグラフの分散表現を用いたTwitterからの日本語評判情報抽出

  1. 1. DEIM 2016 単語・パラグラフの分散表現を⽤いた Twitterからの⽇本語評判情報抽出 2016.2.29 奈良先端科学技術⼤学院⼤学情報科学研究科 知能コミュニケーション研究室・NAISTビッグデータプロジェクト 芥⼦ 育雄 鈴⽊ 優 吉野 幸⼀郎 中村 哲 シャープ株式会社コンシューマーエレクトロニクスカンパニー クラウドサービス推進センター  ⼤原 ⼀⼈ 向井 理朗 第8回データ⼯学と情報マネジメントに関するフォーラム
  2. 2. DEIM 2016 本発表の背景 •  背景1:⽂書の分散表現をニューラルネットで学習できる     パラグラフベクトルの提案 [Le, Mikolov, 2014.] – 英語の感情分析ベンチマークを⽤いてState-of-the-Artの精度 »  5段階の極性判定精度は50%程度 – 課題:性能改善に必要な分散表現(ベクトル)の可読性 •  背景2:単語の意味ベクトルとブートストラップ学習を提案 [芥⼦, ⿊武者 他, 1996, 1997, 1999, 2000.] – 意味ベクトルの次元は266種類の特徴単語に対応, 基本単語約2万語については専⾨家が特徴単語を付与 – 課題:単語の意味の分散表現としての解像度 »  テキストにおける単語の出現順を考慮していない »  単語の意味ベクトルはビットベクトル 2
  3. 3. DEIM 2016 本発表の概要 •  Ph.D研究の⽬的:意味ベクトルとパラグラフベクトルを統合し, 可読性の⾼いベクトルを⾃動で学習 •  本発表(Ph.D研究の第⼀段階): –  クラウドソーシングを利⽤してTwitterの⽇本語極性判定 ベンチマークを作成 –  ツイート中に出現する基本単語を特徴単語に展開し, パラグラフベクトルのPV-DBOWモデルを利⽤して学習, パラグラフベクトルと統合 –  パラグラフベクトルによる極性判定精度を平均2.3%上回る •  ポジティブ・ネガティブの2クラス極性判定精度:84.5% •  ニュートラルを含めた3クラス極性判定精度:67.5% 3
  4. 4. DEIM 2016 Twitterからの⽇本語評判情報抽出 -企業における⽤途- •  テレビでの紹介やメディア報道に対してのリアルタイムの反響調査 •  ⼀定期間の広告などプロモーション効果の測定 •  ライバル製品との⽐較や製品品質に関する顧客の声(Voice of Customer)の活⽤ 4 シャープの製品関連ツイートの時系列解析(2014/3/24~3/27):
  5. 5. DEIM 2016 Twitterからの顧客の声(VoC)抽出 -ツイート解析の要件と解決策- •  同じ意味の⾔葉のグルーピング – ⼤量ラベル無しツイートによる単語ベクトルの学習 •  Twitterならではの表現,機能表現や係り受けを 踏まえた⽂の特徴を学習 – 単語の出現順を学習するパラグラフベクトル (PV-DMモデル) •  短⽂テキストの⽂脈情報(個⼈の意⾒)を明確化 – ツイート中に出現する基本単語を特徴単語に展開 5
  6. 6. DEIM 2016 提案⼿法-Twitterからの⽇本語評判 情報抽出(提案システム)- •  訓練セット: –  ラベルありツイートと ⼤量のラベル無し ツイート •  提案システムの流れ: –  実線:訓練セット (ツイート)の流れ –  ⼆重線:テストセット (ツイート)の流れ –  破線:パラメータ調整 –  訓練セットのラベルは 教師あり学習の⼊⼒ 6 PV-DM,PV-DBOW) ) PV-DBOW)
  7. 7. DEIM 2016 提案⼿法-パラグラフベクトル- •  PV-DMモデル:⽂脈ベクトルと次単語のベクトルとの内積が,周辺単語以外の単語ベクトルとの 内積より⼤きくなるように次単語のベクトルを予測 •  PV-DBOWモデル:パラグラフベクトルを元にパラグラフ内の単語をランダムにウインドウ⻑分 選択し,単語ベクトルを予測 •  パラメータ調整:ウインドウ⻑,ベクトル⻑,学習回数,中間層のベクトル(結合, 和,平均) 7 w -3) w - w w -2) INPUT Classifier PV-DBOW Paragraph id Paragraph id w INPUT Concatenate/ Sum / Average Classifier PV-DM w -3 w -2 w t-1
  8. 8. DEIM 2016 提案⼿法-基本単語の意味ベクトル- •  意味ベクトル –  階層的に266種類の概念分類を特徴単語として選択 –  約2万語の基本単語に対して,各特徴単語との意味的・連想的関係を266次元の ベクトルで表現(基本単語が特徴単語と関係ある場合は1,関係ない場合は0) 8 特徴単語 {⼈間,悲しい,芸術,科学,興奮,…} 基本単語  パイロット:(1,0,0,1,1,…) 例 •  ブートストラップ学習 –  仮説1: ⽂書の意味ベクトル •  ⼀定数以上の基本単語が含まれていれば,その基本単語の意味ベクトルの 加重和によって,適切な⽂脈情報が表現可能 –  仮説2: 単語の意味ベクトル •  単語が含まれている⽂書の意味ベクトルの加重和によって,適切な⽂脈情報を獲得 「パイロット」は,人間,科学,興奮 などの文脈で出現することを表現
  9. 9. DEIM 2016 提案⼿法-基本単語の意味ベクトル (特徴単語)からパラグラフベクトルの学習 •  ツイート中の基本単語を特徴単語に展開し,ツイートの⽂脈情報を表現 –  パラグラフの意味ベクトル学習にPV-DBOWを活⽤ –  特徴単語に展開する基本単語の品詞,及び展開する特徴単語数の上限がパラメータ 9 A A 4 . 3 FullHD
  10. 10. DEIM 2016 Twitterからの⽇本語評判情報抽出の 実験-⼿順- •  ⽬的: –  商品企画や品質サポートにとって有益な個⼈の意⾒を Twitterから抽出 •  対象: –  2種類のスマートフォン製品ブランド(製品A, 製品B) •  ツイートへのラベル付与: –  ポジティブ:対象の製品ブランドに対して, ポジティブな意⾒を発信しているツイート –  ネガティブ:対象の製品ブランドに対して, ネガティブな意⾒を発信しているツイート –  ニュートラル:対象の製品ブランドに対して, 個⼈の意⾒を発信しているが,ポジティブでも ネガティブでもないツイート –  無関係:対象の製品ブランドに対しての 個⼈の意⾒を発信していないツイート 10 , ④ SVM) ⑤
  11. 11. DEIM 2016 ベンチマーク •  約3万5千ツイートに対し,クラウドソーシングを利⽤して各ツイート5⼈の作業者 –  ラベル付与の費⽤は約2万円(現実的な予算で構築可能) –  複数のラベルが1位で同数投票された“その他”のツイートや“無関係”のラベルが 付与されたツイートは対象外 •  クラウドソーシングに掛ける前段階のラベル無しツイートが約35万件 –  製品A,Bに関して収集したツイートでノイズ除去まで⾏ったもの 11
  12. 12. DEIM 2016 実験⽅法 1)  ベースライン(BoW)の評価実験 –  訓練セットとテストセット両⽅の語彙がBoWの次元 –  各ツイートから抽出された語彙の頻度がBoWの値 –  訓練セットのBoWに対して 4分割交差検定とグリッドサーチにより,SVMのカーネル関数と ハイパーパラメータの値を決定 –  SVMの分類器とテストセットのBoWを⽤いて評価 2)  パラグラフベクトル(PVEC)の評価実験 –  最初にラベル無しツイートの単語ベクトル学習 –  上記単語ベクトルを初期値として,訓練セットのPVECを学習 –  最後にテストセットのPVECを学習(この時の単語ベクトルは凍結) –  訓練セットのPVECに対して 4分割交差検定とグリッドサーチにより,SVMのカーネル関数と ハイパーパラメータの値を決定 –  SVMの分類器とテストセットのPVECを⽤いて評価 12
  13. 13. DEIM 2016 実験⽅法-提案⼿法- 3)  提案⼿法の評価実験 –  PVECの評価実験に追加して, –  ラベル無しツイート中に含まれる基本単語を特徴単語に展開, 単語ベクトルをPV-DBOWで学習 –  訓練セット,テストセットを順に基本単語を特徴単語に展開し, 上記単語ベクトルを初期値として,PV-DBOWで学習 –  訓練セットのPVEC(PV-DMとPV-DBOW)と特徴単語展開を⾏って 作成したPV-DBOWを結合した特徴表現に対して, 4分割交差検定とグリッドサーチにより,SVMのカーネル関数と ハイパーパラメータの値を決定 –  SVMの分類器とテストセットの特徴表現(パラグラフベクトルの PV-DM,PV-DBOWと提案⼿法のPV-DBOWを結合)を⽤いて評価 13
  14. 14. DEIM 2016 評価結果 14 4. A BoW 57.5% 58.6% 73.9% 78.1% PVEC 62.4% 62.3% 78.9% 80.1% 63.4% 64.7% 79.6% 81.0% 5. B BoW 61.8% 65.1% 79.9% 80.1% PVEC 64.7% 65.2% 81.7% 82.7% 66.3% 67.5% 82.9% 84.5% 製品Aのベンチマーク: 4,814ツイート 提案⼿法は, ・3クラス分類:2.4%(6.1%) ・2クラス分類:0.9%(2.9%) PVEC(BoW)の精度を上回った. 製品Bのベンチマーク: 11,932ツイート 提案⼿法は, ・3クラス分類:2.3%(2.4%) ・2クラス分類:1.8%(4.4%) PVEC(BoW)の精度を上回った.
  15. 15. DEIM 2016 考察 -ベンチマークサイズについて- 15 •  製品Bの訓練・テストセットを75%, 50%に削減した時のテストセットの評価 –  提案⼿法による精度改善はベンチマークサイズに依存しない 製品Aを含めて 平均2.3%向上 製品Aを含めて さらに平均 2.3%向上
  16. 16. DEIM 2016 考察 -⼤規模な単語ベクトルの学習効果- •  製品Bで⼤規模なラベル無しツイートの 単語ベクトルを初期値としなかった場合の評価 – 提案⼿法:平均4.0%,PVEC:平均4.6%精度が下がり, 単語ベクトルの効果あり 16 平均2.7% 向上
  17. 17. DEIM 2016 考察 -提案⼿法の成功例,失敗例- •  提案⼿法により分類が正解に変わったツイート数,不正解に変わったツイート数 17   不正解→正解 正解→不正解 ポジティブ 103 60 ネガティブ 54 54 ニュートラル 106 63 •  提案⼿法により分類が不正解から正解に変わったツイート例 ○Positive→Negative  最悪 製品B 防⽔ だ から ⽔ に つけ たら あら ⼤変 画⾯ のなか に ⽔ が  【勢⼒・程度 劣悪 否定的 多数・多量 醜悪 特殊・希有 困難 ⽔棲⽣物 海洋 資源 素材・     材料 液体 寒冷 無⾊・透明 様⼦・様態 勢⼒・程度 価値・質 因果 否定的 困難 誤謬   通信 マスメディア ⾊彩 平⾯ 映像・画像 電⼦⼯学 コンピュータ ⽔棲⽣物 海洋 資源   素材・材料 液体 寒冷 無⾊・透明】
  18. 18. DEIM 2016 まとめ •  Twitterからの⽇本語評判情報抽出システムを提案 –  パラグラフベクトルはベースライン(BoW)に対して, 極性判定の精度が平均2.3%向上 –  意味ベクトル辞書を⽤いることにより,パラグラフベクトルに対して, さらに極性判定の精度が平均2.3%向上 •  Twitterの⽇本語極性判定ベンチマーク作成 –  英語ではTwitterを⽤いたシェアードタスク開催, 共通ベンチマークも公開されており, State-of-the-Artの競争激化,NLP応⽤が急速に進展 –  ⽇本語の極性判定共通ベンチマーク,シェアードタスクの必要性 18
  19. 19. DEIM 2016 今後の展開 •  特徴抽出(PVEC,提案⼿法)を後段の教師あり学習からの フィードバックループに⼊れる – 誰でも扱えるツール化 – さらなる精度向上 •  単語ベクトルの初期値として,意味ベクトルを与える – 可読性の⾼い単語・パラグラフベクトルの実現 – 提案システムの安定性向上 – デバッグ機能の実現 19

×