Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

「人工知能」の表紙に関するTweetの分析・続報

2,762 views

Published on

WI2研究会で発表したスライドです.

Published in: Data & Analytics
  • Be the first to comment

「人工知能」の表紙に関するTweetの分析・続報

  1. 1. 「人工知能」の表紙に関する Tweetの分析・続報 鳥海 不二夫,榊 剛史,岡崎 直観 東京大学・東北大学 2014/05/24-25 Web Intelligence and Interaction @隠岐
  2. 2. 人工知能学会・学会誌「人工知能」 • 人工知能学会が学会 誌の表紙を変更 • 女性型掃除機 • Twitter上で「女性差別 的である」との批判 • Twitter上で議論 • 会員激増 • 編集長歓喜←イマココ
  3. 3. 事の経緯 • 2013年12月25日 – 人工知能学会WEBページ – 「学会誌名の変更と新しい表紙デザインのお知ら せ」 • 同日20時40分 – ネットニュースサイトであるITmediaの記事を掲載 – 「人工知能学会誌、表紙が“萌え”化」 – その後好意的なツイートが多く投稿される
  4. 4. 事の経緯2 • 2013年12月26日0時57分 – 初の批判的ツイート • 同日15時21分 – 批判ツイートがFollower3万人以上のユーザに よってRetweetされる – さらに批判的ツイート – 炎上のきっかけとなる
  5. 5. 炎上のきっかけとなったツイート
  6. 6. 事の経緯3 • 同日18時頃 – まとめサイトtogetterにまとめができる – 3000回以上のTweet – 「人工知能学会の表紙は女性蔑視?」 • 2013年12月27日10時24分 – 2ちゃんねるにスレが立つ • 同日16時ごろ – 痛いニュースに掲載 – 「『家事をする女性ロボット。気持ち悪い、男の妄想』 人工知能学会の表紙に批判殺到」
  7. 7. 「人工知能」の表紙に関するTweet の 分析 • 人工知能Vol29No.2 • 小特集:「「人工知能」 表紙問題における議論 と論点の整理」 • http://bit.ly/1mkHwFc
  8. 8. 本研究の目的 • 「人工知能」表紙問題:WEB上での扱い – どの程度問題だと認知されていたのか – どのような人がどのような形で興味を持っていた のか • 仮定:WEB上の重要な情報はTwitter上で扱 われる – Twitterに現れたURLからWEB上の情報を獲得 – 誰がどのような話題に興味があったのか
  9. 9. 今日の結論 • 人工知能の表紙問題はたいした問題では無 かった – ほとんどの人がネタとして消費 – 真面目な議論は少ない • コミュニティごとの「見方」を解析 – ボカロファン,プログラマコミュニティ:ネタ – 政治的コミュニティ:社会問題
  10. 10. データ詳細 • 収集期間 – 2013 年12月16日~2014年01月08日 • 検索ワード – 「人工知能」 • ユーザ数・ツイート数 – ユーザ数:42,369 – ツイート数:89,262 • URLデータ – 全ツイートの中に含まれたURL:3,895 種類 – 出現数: 50,621 回
  11. 11. データのクレンジング • ボットの排除 • 明らかなボットアカウントを抽出 • 3,977ツイートをボットによる投稿として排除 • 短縮URLの展開 • 短縮URLを元のURLに展開 • Queryやラベルの削除 • 拡散しなかった情報の排除 • 50ツイート未満のURLを排除 • 99 種類41,292ツイート
  12. 12. 主なイベントとツイート数
  13. 13. 情報の整理 • 大量のURLがTwitter上には存在 – すべてを見ることは困難→情報整理 • 得られたURLを分類 – ツイート:140文字以内という制限→自然言語によ る分類は困難 – WEBページ:画像も含まれ困難 • 内容に依存しないクラスタリング手法の提案 – 人の行動に基づいたクラスタリング
  14. 14. 二部グラフを用いたクラスタリング • 必要としているユーザに基づくクラスタリング – 立場ごとに必要としている情報が異なる – 仮定:同じ人によってツイートされたURLは類似し た情報である – ツイートユーザの類似度でURLをクラスタリング A B C D
  15. 15. 情報源の類似性 • ユーザ重複率: Jaccard係数 – ある二つのURLをツイートしたユーザがどの程度 重複しているか – 𝑂𝑖𝑗 = 𝑈 𝑖∩𝑈 𝑗 𝑈 𝑖∪𝑈 𝑗 • Jaccard係数によるネットワークの構築 – 𝑂𝑖𝑗 > 𝑡ℎとなるURL同士をリンク接続 • ここでは, 𝑡ℎ=0.05 – 得られたネットワークからクラスタを抽出
  16. 16. URLネットワーク • ネットワークからのクラスタ抽出
  17. 17. Moduralityによるコミュニティ抽出 • Modularity – ネットワークをもっとも「よく」分割するための指標 – 内部リンクが多く,外部リンクが少ないようにクラ スタを作成する – Newman法を利用 𝐶𝑖 𝐶𝑗
  18. 18. 抽出された主なクラスタ No. Name URL数 総ツイート数 1学会表紙ネタ系 9 15796 2浅い議論系 3 6146 3深い議論系 13 1968 4Togetterまとめ 3 284 • 全55クラスタを抽出 – 45クラスタが1 つのURLからなるクラスタ – 主なクラスタ:URL数3以上のクラスタ
  19. 19. クラスタ1に含まれるWEBサイト • 「人工知能」表紙のおかげで「情報処理」表紙がかすんでしまった pic.twitter.com/y7ntjX9WVP • 「人工知能」の女の子 pic.twitter.com/PBMOdKxxwG • 人工知能学会誌の新表紙良いと思います http://www.ai- gakkai.or.jp/?p=4923 pic.twitter.com/pF685QJdW6 • 人工知能学会誌の表紙が話題になっていますが、ここで日本大腸肛門 病学会のポスターを見てみましょう。 http://www2.convention.co.jp/68jscp/ pic.twitter.com/fW8kda3Lzv • 人工知能学会誌の表紙が話題になっていますが、ここで精密工学会の ポスターを見てみましょう。(2012年ver) pic.twitter.com/BRiS7UvFEV • 日本大腸肛門病学会 • 学会誌名の変更と新しい表紙デザインのお知らせ | 人工知能学会 (The Japanese Society for Artificial Intelligence) • 人工知能学会誌の表紙が話題になっていますが、ここで精密工学会の ポスターを見てみましょう。 pic.twitter.com/61SVhsSwZ5 • 人工知能学会表紙コスの人が来た! pic.twitter.com/NTM5bXoPBb
  20. 20. クラスタ1 • 含まれるサイトの特徴 – 他の学会紙の表紙 – 各種学会の表紙や関連する小ネタ – 表紙に描かれた女性の画像など • 派生したネタをツイートしたものが中心 – 直接表紙については言及せず – ネタを楽しんでいるクラスタ
  21. 21. クラスタ2に含まれるWEBサイト • 人工知能学会誌の表紙、女性イラストレー ターが描いていた • 人工知能学会の表紙のメイドロボットを考察 したら深すぎた | ドウデモイイコト。 • 人工知能学会の表紙は女性蔑視? - Togetterまとめ
  22. 22. クラスタ2 • 含まれるサイトの特徴 – 表紙に関して議論を行っているサイト • ニュースサイト • まとめサイト • ブログ • 表紙に関する情報を扱う – ジェンダー問題などには踏み込まない – 非専門家が意見表明が中心
  23. 23. クラスタ3に含まれるWEBサイト • 人工知能学会の表紙について、会員として調べた/考えたこと • 児童労働かと思ったら人工知能学会の学会誌の表紙だった件: 天漢日乗 • はてなブックマーク - 人工知能学会の表紙は女性蔑視? - Togetterまとめ • はてなブックマーク - Thinking Spot: 人工知能学会の表紙について、会員とし て調べた/考えたこと • 人工知能学会の表紙について、会員として調べた/考えたこと • 人工知能学会表紙批判への反論、を片っ端から論破していく • 人工知能学会関係者の皆様へ - researchmap • 人工知能学会表紙批判への反論、を片っ端から論破していく • 人工知能学会の表紙の件 - 児童小銃 • 「人工知能学会の表紙は女性蔑視だ!」に思うこと - ぐるりみち。 • 人工知能学会誌の表紙のこと - 紙屋研究所 • 暇だから人工知能について垂れ流してみる • 人工知能学会誌の表紙を通して、批判と攻撃との差をみる
  24. 24. クラスタ3 • 含まれるサイトの特徴 – 表紙が持つ問題点に関する議論 – ジェンダー論をはじめとして人工知能の表紙その ものに関して考察したブログ – 表紙の件を「真面目に」捉えたサイトのクラスタ – 表紙に肯定的な意見,批判的な意見双方を含む
  25. 25. クラスタ4に含まれるWEBサイト • 人工知能学会誌の新しい表紙デザインのイ ラストへの反応 - Togetterまとめ • 人工知能学会の表紙は男の娘!!という斬 新な意見が出てきてるwww - Togetterまとめ • 【激励】人工知能学会誌の表紙絵を描いた方 へ - Togetterまとめ
  26. 26. クラスタ4 • 含まれるサイトの特徴 – Twitter のまとめサイトである togetter – Twitter の情報が見やすい形で再編集された情 報 – 表紙が持つ問題点については深い議論は無い – どちらかといえばネタとして消費
  27. 27. 各クラスタのツイート時期と ツイートの盛り上がり
  28. 28. ユーザコミュニティとWEBサイト • 誰が何をツイートしたのか? – コミュニティ単位での情報拡散の分析 – どのように情報が伝播したかを解明 • 個々のユーザでは無くユーザ群に着目 – ユーザコミュニティの抽出 – 各クラスタが「いつ」「どのコミュニティで」出現した か – コミュニティ間の伝播を分析
  29. 29. コミュニティの抽出 • 相互Replyネットワークからコミュニティを構築 – 互いのスクリーンネームを含むツイート行った ユーザ→リンクで接続 • 利用データ – 時期:2012年1月~ 2013年4月 – ユーザごとに直近1000 件の投稿(当該期間の投 稿数が 1000 件以下のユーザは全投稿) – 当該ツイート群から相互メンション関係を抽出
  30. 30. コミュニティの抽出 • ユーザネットワーク – ノード数 42,369 – リンク数 83,140 • ネットワークをコミュニティに分割 – コミュニティ分割手法:Louvain 法 • 抽出結果 – 20,971のコミュニティ
  31. 31. 代表的なコミュニティの特徴語 コミュニ ティID ユーザ数 特徴語 9094 215MoE 高専 TRPG ポケモン アイマス プレイ 9205 1936原発 放射線 福島 政策 経済 放射 5018 807工作 マイコン キット ロボコン 電子 組み込み 5947 642UTAU ミク MMD 初音 mylist ボーカロ イド 5260 1468Haskell Python coins インフラ github Emacs 951 1525軍事 WoT 大洗 共産 ニコマス 模型 2383 971 アニメー ター ロケット 宇宙 戦艦 SF コミックス
  32. 32. コミュニティ特徴語の抽出 • コミュニティを理解するため特徴語を抽出 – ユーザを表す特徴語の文書集合を作成 • ツイッタープロフィールに含まれる自己紹介文の結合 – 文書集合の出現語のtf-idf 値を算出 • コミュニティ特徴語=tf-idf値の上位20語 – ユーザの自己紹介における特徴語
  33. 33. クラスタごとの拡散分析 • 各クラスタに含まれるURLがどのコミュニティ でいつTweetされたかを分析 – どのようなコミュニティにいつ広がっていったのか を分析 • クラスタの特徴分析 – どういう内容がどういう拡散を見せるのか • コミュニティの分析 – どのようなコミュニティがどう拡散させるのか
  34. 34. クラスタ 1:学会表紙ネタ系
  35. 35. クラスタ 2:浅い議論系
  36. 36. クラスタ 3:深い議論系
  37. 37. クラスタ 4:Togetter まとめ系
  38. 38. クラスタごとの持続時間と拡散性 持続時間 拡散性 クラスタ 1: 学会表紙ネタ系 クラスタ 2: 浅い議論系 クラスタ 3: 深い議論系 クラスタ 4: Togetter まとめ系
  39. 39. クラスタ1,2 • クラスタ1:学会表紙ネタ系 • クラスタ2:浅い議論系 コミュニ ティID ユーザ数 特徴語 9094 215MoE 高専 TRPG ポケモン アイマス プレイ 5018 807工作 マイコン キット ロボコン 電子 組み込み 5947 642UTAU ミク MMD 初音 mylist ボーカロ イド 5260 1468Haskell Python coins インフラ github Emacs
  40. 40. クラスタ3,4 • 3:深い議論系 • 4:Togetterまとめ コミュニ ティID ユーザ数 特徴語 9205 1936原発 放射線 福島 政策 経済 放射 951 1525軍事 WoT 大洗 共産 ニコマス 模型
  41. 41. クラスタによるユーザの違い • クラスタ1,2は軽い話題 – クラスタ1は完全に小ネタ – クラスタ2は浅い議論系 – 幅広いユーザによってTweetされる • クラスタ3は深い議論,クラスタ4はまとめ記事 – 社会問題に興味があるコミュニティによるTweet • 問題そのものに興味がある人々 • 議論好き? – さらなる分析が必要
  42. 42. まとめ • 人工知能学会表紙問題におけるTweetの分 析(続報) • ユーザに基づくクラスタリング手法を提案 – 関連するWEBサイトをクラスタに分類 – ユーザコミュニティでの情報拡散の可視化 • 表紙問題における議論の傾向を分析 – ボカロファン,プログラマコミュニティ:ネタ – 政治的コミュニティ:社会問題
  43. 43. 今後の課題 • 二部グラフによるクラスタリングの応用 – 二部グラフを用いたリツイートの分類 • 情報拡散とコミュニティの分析 – 同一事象の多角的視点の分析 – 炎上対策などにも応用 • より多くの情報拡散の事例分析 – 情報拡散のパターン分類 – その原因の解明
  44. 44. おまけ 今後の展開に乞うご期待

×