Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

「なぜビッグデータが選挙の予測を可能にするのか」#yjdsw4

762 views

Published on

http://yahoo-ds-event.connpass.com/event/24511/

Published in: Technology
  • Be the first to comment

「なぜビッグデータが選挙の予測を可能にするのか」#yjdsw4

  1. 1. なぜビッグデータが 選挙の予測を可能にするのか Yahoo! JAPAN 池宮 伸次
  2. 2. 自己紹介 池宮 伸次 いけみや しんじ 主な業務 サービス分析支援 データ可視化 ビッグデータレポート:チーフエディター
  3. 3. どんな仕事? データに基づいた サイト分析、改善 データ可視化、活用
  4. 4. 今日のお話 Yahoo! JAPANビッグデータレポート
  5. 5. 衆院選、参院選といった 国政選挙の獲得議席予測 ビッグデータレポートでは、Yahoo! JAPANが保有するビッグデータを用い て選挙の獲得議席数予測や選挙結果の 分析を実施。
  6. 6. 2012年末に衆院選と 検索データとの関係性をレポート
  7. 7. ものすごく重要な発見!
  8. 8. その発見に基づき 2013年の参院選を予想した
  9. 9. 選挙区最終予測 比例区最終予測
  10. 10. 実際の選挙結果との全議席比較
  11. 11. 実際の選挙結果との選挙区比較
  12. 12. なぜこれが実現できたのか?
  13. 13. ものすごく重要な発見!
  14. 14. の話の前に
  15. 15. Yahoo! 検索
  16. 16. Yahoo! 検索キーワードの データについてパソコン スマートフォン タブレット 検索
  17. 17. 検索キーワードのデータについて 検索 橋本甜歌 school of lock 角川書店 東スポ 東京六大学 キッズgoo 生協 渡る世間は鬼ばかり 固定資産税 サッポロビール 大阪城ホール 京都府 三田 アウトレット ポイント bb 杉田智和 岩田屋 ビューティーコロシアム 大量の検索キーワード 分析 価値を 見つけだす 分類 精査 解析 抽出 パソコン スマートフォン タブレット
  18. 18. 検索キーワードのログについて 年間75億種類以上の言葉が検索さ れる「Yahoo! 検索」。検索されたキー ワードはもちろん、どういったデバイ スで検索したかやIPを元にした都道府 県、属性情報などをもとにさまざまな 分析へ活用することができる
  19. 19. 検索キーワードが 決定的に他のデータと異なる点 検索キーワードのデータは、ユーザーが 能動的かつ自由意志にて探求欲調査欲に 基づいて入力しているデータである
  20. 20. 検索は人の情報探求欲から始まる 腰が痛いなぁ 雨が降りそう あのアイドル かわいいなぁ
  21. 21. 検索には世代の違いが現れる 67.40% 31.73% 32.60% 68.27% 0% 20% 40% 60% 80% 100% ラグビー フィギュア 男性 女性 1.43% 1.90% 16.56% 8.90% 30.64% 19.45% 28.80% 31.87% 16.36% 24.13% 6.21% 13.75% 0% 20% 40% 60% 80% 100% ラグビー フィギュア 10代以下 20代 30代 40代 50代 60代
  22. 22. 検索には地域性が現れる マクド マック
  23. 23. 検索には地域性が現れる 今川焼き 大判焼き 回転焼き 回転焼き風おやつの検索数 が多い呼び方分布
  24. 24. 検索には慣習が現れる 2013年1月1日~2015年10月10日 「ネクタイ 結び方」の検索数推移 1/15前後 4/1前後 1/15前後 4/1前後 毎年1月前半と4月頭に検索数が増えるという周期性が存在する
  25. 25. 夏休みの宿題に関する検索の変化7月20日 7月22日 7月24日 7月26日 7月28日 7月30日 8月1日 8月3日 8月5日 8月7日 8月9日 8月11日 8月13日 8月15日 8月17日 8月19日 8月21日 8月23日 8月25日 8月27日 8月29日 8月31日 9月2日 自由研究 テーマ 課題図書 ※集計対象は2015年。検索数は最大値を基準に指数化 夏休みの最初に検索が多くて 徐々に減っていく
  26. 26. 夏休みの宿題に関する検索の変化7月20日 7月22日 7月24日 7月26日 7月28日 7月30日 8月1日 8月3日 8月5日 8月7日 8月9日 8月11日 8月13日 8月15日 8月17日 8月19日 8月21日 8月23日 8月25日 8月27日 8月29日 8月31日 9月2日 交通安全ポスター 読書感想文 書き方 読書感想文 パクリ お盆休み ※集計対象は2015年。検索数は最大値を基準に指数化
  27. 27. 夏休みの宿題に関する検索の変化7月20日 7月22日 7月24日 7月26日 7月28日 7月30日 8月1日 8月3日 8月5日 8月7日 8月9日 8月11日 8月13日 8月15日 8月17日 8月19日 8月21日 8月23日 8月25日 8月27日 8月29日 8月31日 9月2日 塩の結晶 牛乳パック工作 レモン電池 お盆休み ※集計対象は2015年。検索数は最大値を基準に指数化
  28. 28. 夏休みの宿題に関する検索の変化7月20日 7月22日 7月24日 7月26日 7月28日 7月30日 8月1日 8月3日 8月5日 8月7日 8月9日 8月11日 8月13日 8月15日 8月17日 8月19日 8月21日 8月23日 8月25日 8月27日 8月29日 8月31日 9月2日 人権標語 環境問題 8月の天気 地球温暖化 ベートーベン 夏休み最終日 ※集計対象は2015年。検索数は最大値を基準に指数化
  29. 29. しかし、これらの分析結果は ネット社会特有の結果じゃないの?
  30. 30. A B ※ヤフー利用ユーザーにおいては AはBよりも高い! 検索データから
  31. 31. ネットとリアルは違う? ネット社会 リアル社会
  32. 32. 証明するには検索データと リアルのデータを比較すればよい 400 500 600 700 800 900 1000 13000 14000 15000 16000 17000 18000 19000 リアル ネット
  33. 33. ものすごく重要な発見! ネット リアル
  34. 34. ネットとリアルを結びつける ネット社会 リアル社会
  35. 35. ヤフーのビッグデータ 社会の可視化が可能
  36. 36. インフルエンザを リアルタイムで把握する ネット リアル
  37. 37. インフルエンザを リアルタイムで把握する
  38. 38. さらなる検索データ活用の可能性 国勢調査編 アメリカ人の都道府県別 居住者数と 「Netflix」の検索量
  39. 39. しかし、検索のデータは 万能ではない お腹すいたなぁ どこで待ち合わせる? 今見てるテレビ めっちゃ面白い! 感情といったものは 検索のキーワードログから 収集するのは困難
  40. 40. 検索量は気持ちを代弁できるか? 検索数 時間 検索数の増加=興味・関心の高さ ではあるが、 関心の高さ=ポジティブ感情 ではない。 なので、検索量の推移だけでその意見 に賛成なのか反対なのか、ポジティブ な感情なのかネガティブな感情なのか を推察できないことがある 「消費税増税」の検索数推移
  41. 41. 感情分析はTwitterなどが向いている ※各時間帯の総ツイート量に対する各ワードを含むツイート割合
  42. 42. 人の感情や身体変化を抽出 ※各時間帯の総ツイート量に対する各ワードを含むツイート割合
  43. 43. まとめ • Yahoo! JAPANには多種多様、大量のデータがある • 特に検索データのログは非常に稀少なデータである • データの中にはリアル社会を反映するものがある • ゆえに、目的と手段とそれに適したデータの選択さ えまちがわなければ、予測といったような価値を生 み出すことも可能となる

×