なぜビッグデータが
選挙の予測を可能にするのか
Yahoo! JAPAN 池宮 伸次
自己紹介
池宮 伸次
いけみや しんじ
主な業務
サービス分析支援
データ可視化
ビッグデータレポート:チーフエディター
どんな仕事?
データに基づいた
サイト分析、改善
データ可視化、活用
今日のお話
Yahoo! JAPANビッグデータレポート
衆院選、参院選といった
国政選挙の獲得議席予測
ビッグデータレポートでは、Yahoo!
JAPANが保有するビッグデータを用い
て選挙の獲得議席数予測や選挙結果の
分析を実施。
2012年末に衆院選と
検索データとの関係性をレポート
ものすごく重要な発見!
その発見に基づき
2013年の参院選を予想した
選挙区最終予測 比例区最終予測
実際の選挙結果との全議席比較
実際の選挙結果との選挙区比較
なぜこれが実現できたのか?
ものすごく重要な発見!
の話の前に
Yahoo! 検索
Yahoo! 検索キーワードの
データについてパソコン
スマートフォン
タブレット
検索
検索キーワードのデータについて
検索
橋本甜歌
school of lock
角川書店
東スポ
東京六大学
キッズgoo
生協
渡る世間は鬼ばかり
固定資産税
サッポロビール
大阪城ホール
京都府
三田 アウトレット
ポイント
bb
杉田智和
岩田屋
ビューティーコロシアム
大量の検索キーワード
分析
価値を
見つけだす
分類
精査
解析
抽出
パソコン
スマートフォン
タブレット
検索キーワードのログについて
年間75億種類以上の言葉が検索さ
れる「Yahoo! 検索」。検索されたキー
ワードはもちろん、どういったデバイ
スで検索したかやIPを元にした都道府
県、属性情報などをもとにさまざまな
分析へ活用することができる
検索キーワードが
決定的に他のデータと異なる点
検索キーワードのデータは、ユーザーが
能動的かつ自由意志にて探求欲調査欲に
基づいて入力しているデータである
検索は人の情報探求欲から始まる
腰が痛いなぁ 雨が降りそう あのアイドル
かわいいなぁ
検索には世代の違いが現れる
67.40%
31.73%
32.60%
68.27%
0% 20% 40% 60% 80% 100%
ラグビー
フィギュア
男性 女性
1.43% 1.90%
16.56%
8.90%
30.64%
19.45%
28.80%
31.87%
16.36%
24.13%
6.21%
13.75%
0%
20%
40%
60%
80%
100%
ラグビー フィギュア
10代以下 20代 30代 40代 50代 60代
検索には地域性が現れる
マクド マック
検索には地域性が現れる
今川焼き
大判焼き
回転焼き
回転焼き風おやつの検索数
が多い呼び方分布
検索には慣習が現れる
2013年1月1日~2015年10月10日
「ネクタイ 結び方」の検索数推移
1/15前後
4/1前後
1/15前後
4/1前後
毎年1月前半と4月頭に検索数が増えるという周期性が存在する
夏休みの宿題に関する検索の変化7月20日
7月22日
7月24日
7月26日
7月28日
7月30日
8月1日
8月3日
8月5日
8月7日
8月9日
8月11日
8月13日
8月15日
8月17日
8月19日
8月21日
8月23日
8月25日
8月27日
8月29日
8月31日
9月2日
自由研究 テーマ 課題図書
※集計対象は2015年。検索数は最大値を基準に指数化
夏休みの最初に検索が多くて
徐々に減っていく
夏休みの宿題に関する検索の変化7月20日
7月22日
7月24日
7月26日
7月28日
7月30日
8月1日
8月3日
8月5日
8月7日
8月9日
8月11日
8月13日
8月15日
8月17日
8月19日
8月21日
8月23日
8月25日
8月27日
8月29日
8月31日
9月2日
交通安全ポスター 読書感想文 書き方 読書感想文 パクリ
お盆休み
※集計対象は2015年。検索数は最大値を基準に指数化
夏休みの宿題に関する検索の変化7月20日
7月22日
7月24日
7月26日
7月28日
7月30日
8月1日
8月3日
8月5日
8月7日
8月9日
8月11日
8月13日
8月15日
8月17日
8月19日
8月21日
8月23日
8月25日
8月27日
8月29日
8月31日
9月2日
塩の結晶 牛乳パック工作 レモン電池
お盆休み
※集計対象は2015年。検索数は最大値を基準に指数化
夏休みの宿題に関する検索の変化7月20日
7月22日
7月24日
7月26日
7月28日
7月30日
8月1日
8月3日
8月5日
8月7日
8月9日
8月11日
8月13日
8月15日
8月17日
8月19日
8月21日
8月23日
8月25日
8月27日
8月29日
8月31日
9月2日
人権標語 環境問題 8月の天気 地球温暖化 ベートーベン
夏休み最終日
※集計対象は2015年。検索数は最大値を基準に指数化
しかし、これらの分析結果は
ネット社会特有の結果じゃないの?
A
B
※ヤフー利用ユーザーにおいては
AはBよりも高い!
検索データから
ネットとリアルは違う?
ネット社会 リアル社会
証明するには検索データと
リアルのデータを比較すればよい
400
500
600
700
800
900
1000
13000 14000 15000 16000 17000 18000 19000
リアル
ネット
ものすごく重要な発見!
ネット
リアル
ネットとリアルを結びつける
ネット社会 リアル社会
ヤフーのビッグデータ 社会の可視化が可能
インフルエンザを
リアルタイムで把握する
ネット
リアル
インフルエンザを
リアルタイムで把握する
さらなる検索データ活用の可能性
国勢調査編
アメリカ人の都道府県別
居住者数と
「Netflix」の検索量
しかし、検索のデータは
万能ではない
お腹すいたなぁ
どこで待ち合わせる?
今見てるテレビ
めっちゃ面白い!
感情といったものは
検索のキーワードログから
収集するのは困難
検索量は気持ちを代弁できるか?
検索数
時間
検索数の増加=興味・関心の高さ
ではあるが、
関心の高さ=ポジティブ感情
ではない。
なので、検索量の推移だけでその意見
に賛成なのか反対なのか、ポジティブ
な感情なのかネガティブな感情なのか
を推察できないことがある
「消費税増税」の検索数推移
感情分析はTwitterなどが向いている
※各時間帯の総ツイート量に対する各ワードを含むツイート割合
人の感情や身体変化を抽出
※各時間帯の総ツイート量に対する各ワードを含むツイート割合
まとめ
• Yahoo! JAPANには多種多様、大量のデータがある
• 特に検索データのログは非常に稀少なデータである
• データの中にはリアル社会を反映するものがある
• ゆえに、目的と手段とそれに適したデータの選択さ
えまちがわなければ、予測といったような価値を生
み出すことも可能となる
「なぜビッグデータが選挙の予測を可能にするのか」#yjdsw4

「なぜビッグデータが選挙の予測を可能にするのか」#yjdsw4