Jaws2012 koshikawa

604 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
604
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
4
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Jaws2012 koshikawa

  1. 1. CRFを用いた
メディア情報の抽出とLinked Data化
~ ソーシャルメディアとマスメディアの比較事例 ~ JAWS 2012 発表資料 <WEB・ネットワーク・ソーシャルメディア> 2012/10/26 10:40~12:30 会場(A) 電気通信大学 大学院情報システム学研究科 越川兼地, 川村隆浩, 中川博之, 田原康之, 大須賀昭彦  
  2. 2. UID: 29 CRFを用いたメディア情報の抽出とLinked Data化 ∼ ソーシャルメディアとマスメディアの比較事例 ∼ 発表者: 越川 兼地 所属: 電気通信大学 大須賀・田原研究室 マス/ソーシャルメディア 報じられる情報の差に着目 メ 変 換意 異 種 デ ツイッターから構築した ,味 情 事象ネットワーク(RDF) 報 ィ 現見 事可 築 構 ア 新   較 機 日応 . 関 事 配用 視 事投 比 聞 例 備事 提 象化 象稿 例案 情 較 ー 紹話 れ ー 化報 表れ の 介題 . 現 発表日 輸 研 10月26日 金 ー   比 送 先 実 , 究 セッション情報: <WEB・ネットワーク・ソーシャルメディア> 10:50∼12:  
  3. 3. 事象情報の見える化エージェント デモある事象(出来事)に関する本研究で構築した 事象ネットワークをお見せします. <ネットワークの説明> 例 山手線 •  ノード: 状態 –  概念 (キーワード) 時間 運転見合わせ 9時頃 •  エッジ: –  ノード間の関係を明示的に表す. 後述 3
  4. 4. デモ(動画:  事象ネットワークの可視化) デモ動画 4
  5. 5. 本研究の提案エージェント/貢献•  提案するエージェント:   「メディアの情報から   事象情報(出来事)を見える化する」  •  貢献   「事象把握の容易化につながる」   –  各メディアでの主張・論点がわかり,    多角的な視点での事象理解に貢献.   5
  6. 6. 背景ソーシャルメディアの爆発的普及. マス・ソーシャルメディアで報道・投稿される情報の違いが顕在化. => 「話題に上る」,「問題視される」など世間を 賑わしている. e.g. 偏向報道, 情報操作 我々は,メディア間の情報差分が重要な情報につながると考えている. 6
  7. 7. 問題点多くの事象(出来事)について, マス・ソーシャルメディアから情報収集/整理し偏りのない情報理解を確立するのは困難. 目的 各メディア情報から事象情報の見える化を行うエージェントを提案する. 7
  8. 8. 目次 デモ 背景 提案システム 応用事例 まとめ 今後の課題 8
  9. 9. システムの入出力 9
  10. 10. 提案システム概要
  11. 11. 提案システム概要 5. CRFを用いた 事象の抽出
  12. 12. 5.  CRFを用いた事象属性の推定ソリューション: [Lafferty  2001]   条件付き確率場(CRF: Conditional Random Field) を用いて形態素毎に事情属性を推測する. 事象情報を表現するために定義した属性 (次スライドで説明) [Lafferty  2001]  Lafferty,  J.,  McCallum,  A.,  and  Pereira,  F.:  Condi<onal  random  fields:  Probabilis<c  models  for  segmen<ng  and  labeling  sequence  data,  in  Proc.  ICML2001  (2001) 12
  13. 13. 事象の表現方法   事象情報を表現するために,[Nguyen 12]の   行動属性を拡張し9つの事象属性を定義した. 事象属性 意味 Subject 主題 Ac<on 動作   What 動作の目的語 Target  (new) 動作の対象者 Status  (new) 主題の状態 Where 事象の起こる場所 When 事象の起こる時刻及び場面 Because  of  (new) 事象の因果関係 According  (new) 情報の発信元 [Nguyen  12]   The-­‐Minh  Nguyen,  Takahiro  Kawamura,  Yasuyuki  Tahara,    and    Akihiko  Ohsuga:  Self-­‐Supervised  Capturing  of  Users’  Ac<vi<es  from   Weblogs.  Interna<onal  Journal  of  Intelligent  Informa<on  and  Database  Systems,Vol.6,  No.1,  pp.61-­‐76,  InderScience  Publishers,  2012 13
  14. 14. 事象属性と意味ネットワークを用いた事象の表現方法–  例1    文A: 悪天候のため操縦が難しい.   因果関係 状態 主題 14
  15. 15. 5.  CRFを用いた事象属性の推定オンライン処理 オフライン処理 処理フロー 15
  16. 16. 5.  CRFを用いた事象属性の推定オンライン処理 オフライン処理 5-1 データの分割(訓練/テスト) 処理フロー 16
  17. 17. 5.  CRFを用いた事象属性の推定オンライン処理 オフライン処理 5-1 データの分割(訓練/テスト) 5-2 訓練データの作成 処理フロー 17
  18. 18. 前工程までの処理Dataset Data (一部) オスプレイ 形態素解析 軍用機シリーズが   ブックオフにあったので   10冊買ってきた… 18
  19. 19. 5.  CRFを用いた事象属性の推定: 訓練データの作成方法 人手で形態素毎に 事象属性ラベルの 付与を行う. 19
  20. 20. 5.  CRFを用いた事象属性の推定: 訓練データの作成方法 人手で形態素毎に 事象属性ラベルの 付与を行う. B: Begin 表現の始まり I: Inside表現の途中 O: Outside表現以外 20
  21. 21. 5.  CRFを用いた事象属性の推定オンライン処理 オフライン処理 5-1 データの分割(訓練/テスト) 5-2 訓練データの作成 処理フロー 21
  22. 22. 5.  CRFを用いた事象属性の推定オンライン処理 オフライン処理 5-1 データの分割(訓練/テスト) 5-2 訓練データの作成 5-3 学習モデルの構築 処理フロー 22
  23. 23. 5.  CRFを用いた事象属性の推定オンライン処理 オフライン処理 5-1 データの分割(訓練/テスト) 5-2 訓練データの作成 5-4 学習モデルを用いて 5-3 学習モデルの構築 事象属性を推測 処理フロー 23
  24. 24. ②  事象属性を推定する: 4.事象ラベルの推測精度  1/2 評価実験概要: 正解データを用意し,5-交差検定を行った. 精度指標(Precision/Recall/F値)は各回(5回)の平均 値により算出した.(20%をテストデータとした.) 正解データの概要: ラベル 文の Subject Action What Target Status Where When Because_o Accordin メディア 数 数 f g 2,482 170 274 307 262 10 160 46 75 16 39 Twitter 1,228 55 93 188 131 28 29 40 44 17 4 朝日新聞 デジタル 24
  25. 25. ②  事象属性を推定する: 4.事象ラベルの推測精度  2/2結果: メディア 指標 Subject Action What Target Status Where When Because_of According 平均 Twitter Presicion 64.14% 74.79% 50.17% - 68.71% 82.48% 74.20% - 80.00% 70.64% Recall 59.24% 74.32% 39.76% - 33.16% 46.45% 45.76% - 38.48% 48.17% F-measure 61.10% 74.35% 43.87% - 44.60% 55.60% 54.51% - 47.67% 54.53% 朝日新聞 デジタル Presicion 70.50% 81.02% 58.53% 63.75% 87.50% 88.93% 70.81% - - 74.43% Recall 48.61% 82.76% 43.56% 60.71% 50.98% 66.38% 74.44% - - 61.07% F-measure 57.35% 81.38% 49.37% 60.14% 59.72% 75.07% 71.81% - - 64.98% Presicionはそこそこの精度. 25
  26. 26. ②  事象属性を推定する: 4.事象ラベルの推測精度  2/2結果: メディア 指標 Subject Action What Target Status Where When Because_of According 平均 Twitter Presicion 64.14% 74.79% 50.17% - 68.71% 82.48% 74.20% - 80.00% 70.64% Recall 59.24% 74.32% 39.76% - 33.16% 46.45% 45.76% - 38.48% 48.17% F-measure 61.10% 74.35% 43.87% - 44.60% 55.60% 54.51% - 47.67% 54.53% 朝日新聞 デジタル Presicion 70.50% 81.02% 58.53% 63.75% 87.50% 88.93% 70.81% - - 74.43% Recall 48.61% 82.76% 43.56% 60.71% 50.98% 66.38% 74.44% - - 61.07% F-measure 57.35% 81.38% 49.37% 60.14% 59.72% 75.07% 71.81% - - 64.98% Twitterデータセット側の再現率の低さが目立つ. 要因: ソーシャルメディア側の表現の崩れ,表現自体の多さな どのメディア独自の特性から学習データの不足がその一因と 考えられる. 26
  27. 27. 5.  CRFを用いた事象属性の推定オンライン処理 オフライン処理 5-1 データの分割(訓練/テスト) 5-2 訓練データの作成 5-4 学習モデルを用いて 5-3 学習モデルの構築 事象属性を推測 処理フロー 27
  28. 28. 5.  CRFを用いた事象属性の推定 [{  “When”:  “10月から”,          “Ac5on”:  “本格運用される”,          “Subject”:  “オスプレイ”  },      {…},]  オンライン処理 オフライン処理 5-1 データの分割(訓練/テスト) 5-2 訓練データの作成 5-4 学習モデルを用いて 5-3 学習モデルの構築 事象属性を推測 5-5 事象の抽出 (using ヒューリスティックルール) 処理フロー 28
  29. 29. 提案システム概要 [{  “When”:  “10月から”,   言語          “Ac5on”:  “本格運用される”,   ライブラリを          “Subject”:  “オスプレイ”  },   用いて変換      {…},]   (Python:  rdflib)
  30. 30. なぜLinked  Data形式で出力?① 分析面での利点 概念間の関係性が明示されたネットワークを表現で きる. 太 2 二 郎 何関係? 郎 何関係? 1 花② 供給のしやすさ 重みつき有向グラフ 子 本システムで得た構造化された事象情報の利用機 会を高めるために,将来性を考慮してLinked Data 形式で出力することを選んだ. いずれは Linked Open Data (LOD)に。 30
  31. 31. なぜLinked  Data形式で出力?① 分析面での利点 概念間の関係性が明示されたネットワークを表現で きる. 太 2 恋人 二 太 二 郎 郎 何関係? 郎 郎 何関係? 友人 1 花 花② 供給のしやすさ RDF 子 重みつき有向グラフ 子 本システムで得た構造化された事象情報の利用機 会を高めるために,将来性を考慮してLinked Data 形式で出力することを選んだ. いずれは Linked Open Data (LOD)に。 31
  32. 32. 目次 デモ 背景 提案システム 応用事例 まとめ 今後の課題 32
  33. 33. メディア比較事例: 話題:  「オスプレイ」オスプレイに関する比較事例を紹介します. 1月 4月 7月 10月
  34. 34. 応用事例:  データセットについて対象期間: 2012 4/01 ~ 2012 8/16 フィルタリングキーワード: 「オスプレイ」 フィルタリング後のデータセット情報: フィルタリングを
 1ツイートあたり
 メディア 通過率 [%] 総文字数 通過したツイート数 の文字数 Twitter 3,084 0.0255% 76 234,168 運営元
 1記事あたり
 ニュースメディア 記事数 総文字数 媒体 の平均文字数 MSN 産経ニュース 新聞社 231 375 86,553 朝日新聞デジタル 新聞社 116 358 41,559 日テレ NEWS24 TV局 110 96 10,534 FNN TV局 78 503 39,235 34
  35. 35. ネットワーク可視化の工夫点ノード・エッジの大小: => 頻度情報を表現 ノードの色: => メディア毎の ソーシャル マス 出現割合を表現 共通の話題 エッジの色: => 関係の種類を識別 subject what when status according because action where target of ※ 使用した可視化ライブラリ: Gephi 0.8.1 beta 35
  36. 36. ネットワークの可視化例 36
  37. 37. ネットワークを通しての考察1.  話題の多様性 2.  少数意見に関して (略) 3.  2種のオスプレイの存在 4.  偏在性に関して (future work) 37
  38. 38. ネットワークを通しての考察1.  話題の多様性 2.  少数意見に関して (略) 3.  2種のオスプレイの存在 4.  偏在性に関して (future work) 38
  39. 39. 考察例1:  「話題の多様性」 ノード数 Twitter × 産経ニュース Twitter ノード数: 4218 産経ニュース(新聞) ノード数: 2134 FNN(TV) ソーシャル マス ノード数: 917 共通の話題 39
  40. 40. ネットワークを通しての考察1.  話題の多様性 2.  少数意見に関して 3.  2種のオスプレイの存在 4.  偏在性に関して (future work) 40
  41. 41. 考察例3:  「2種のオスプレイの存在」 ソーシャル マス 共通の話題 日本に配備された機体:  MV-­‐22オスプレイ ソーシャルメディア側のネットワークには 「MV-22オスプレイ」, 「CV-22オスプレイ」 といったオスプレイの型番を示す関係が表現されていた. 41
  42. 42. 考察例3:  「2種のオスプレイの存在」 「MV-22オスプレイ」ノードに着目: =>「MV-22」 物資輸送用.「CV-22」の用途は? 42
  43. 43. 考察例3:  「2種のオスプレイの存在」 「事故率」ノードに着目 43
  44. 44. 「オスプレイの事故率」に着目 考察例3:    「2種のオスプレイ              の存在」 型番と事故率の関係が反映された(ソーシャル) 「1.93」に着目 「13.47」に着目 44
  45. 45. 整理:  MV-22  /  CV-22オスプレイの型番と事故率の関係 型番 用途 事故率 MV-­‐22   輸送用 1.93    (日本配備) 米海兵隊所属   -­‐ 2.45 航空機平均 CV-­‐22 特殊作戦用(空軍) 13.47 日本に配備される(た)機種 「MV-22」の事故率は低い. 45
  46. 46. 考察例3:  「2種のオスプレイの存在」  まとめ マスメディアにおいて報道されてなかったこと: •   異なる機種の存在 •   型番と事故率の関係 •   日本に配備される機体の事故率が低いという事実本ネットワークを通して,2種のオスプレイの存在及び事故率との関係が確認でき,マスメディア側の偏向報道の疑いにたどり着くことができた.偏向報道の疑い:  「故意に型番と事故率の情報を伏せ,        反対ムードを換気するかのような報道姿勢」 46
  47. 47. ネットワークを通しての考察1.  話題の多様性 2.  少数意見に関して 3.  2種のオスプレイの存在 4.  偏在性に関して (future work) 47
  48. 48. 考察例4:  偏在性に関して (future  work) •  ソーシャルメディアから得られる偏在性の差に 着目: (地域間での意見/世論の差) ※ 今回の評価実験では絞り込み後の位置情報付きのツイートが5 件と少なく実現できなかった. 例  「関東地域」・「沖縄地域」から 得た事象ネットワークの比 較(地域間での比較)   48
  49. 49. 考察例4:  偏在性に関して (future  work) 反対 what 関心ない 関•  ソーシャルメディアから得られる偏在性の差に what 東 着目: (地域間での意見/世論の差) 地 オスプレイ配備 ※ 今回の評価実験では絞り込み後の位置情報付きのツイートが5 域 件と少なく実現できなかった.what 賛成 例 Because  of かっこいい  「関東地域」・「沖縄地域」から 得た事象ネットワークの比 較(地域間での比較)   49
  50. 50. 考察例4:  偏在性に関して (future  work) 沖 反対 what 反対 宜野湾市 関心ない 縄 関•  ソーシャルメディアから得られる偏在性の差に what 東 what 着目: (地域間での意見/世論の差) 地 地 オスプレイ配備 ※ 今回の評価実験では絞り込み後の位置情報付きのツイートが5 域 域 オスプレイ配備 件と少なく実現できなかった.what 静か what 賛成 例 Because  of Because  of かっこいい  「関東地域」・「沖縄地域」から 賛成 what 得た事象ネットワークの比 保護 Because  of 較(地域間での比較)   尖閣諸島 50
  51. 51. 目次 デモ 背景 提案システム 応用事例 まとめ 今後の課題 51
  52. 52. まとめ◎本エージェントのできる(た)こと ○  事象情報の見える化ができる ○  異種メディアのネットワーク比較ができる. ○  比較事例において,いくつかの有用な知見にたどり着くこと ができた. ✗本エージェントのできないこと ×  知識(発見)獲得はユーザが目視で行う必要がある. ×  ネットワークの重要箇所の特定ができない. ×  デマなどの誤情報がネットワークに反映されてしまう危険 がある. 52
  53. 53. 今後の課題<注力したい課題> • 知見獲得の期待できる可視化ツールの開発 –  重要箇所の推定 • ネットワーク指標 (次数・近接・媒介中心性など…) • 頻度情報 (tf-idf) –  効果的な可視化の実現 •  同じ概念をまとめる(シソーラスなどを使う) •  抽出精度の改善 •  ラベル付けコストの改善 – 半教師あり学習の導入など 53
  54. 54. ネットワークを通しての考察1.  話題の多様性 2.  少数意見に関して 3.  2種のオスプレイの存在 4.  偏在性に関して (future work) 55
  55. 55. 考察例2:  少数意見に関して ソーシャルメディアでは,マスメディアには皆無だった情報 「オスプレイ賛成派」 の意見がネットワークに反映された. (少数派意見へのアクセスが容易) 56

×