最近のデータ分析の潮流(仮)

1,959 views

Published on

ニコニコ学会β第2回データ研究会での発表です。

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,959
On SlideShare
0
From Embeds
0
Number of Embeds
42
Actions
Shares
0
Downloads
10
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

最近のデータ分析の潮流(仮)

  1. 1. 最近のデータ分析の潮流(仮) 武田英明 @takechan2000 ニコニコ学会β第2回データ研究会 2013年7月27日 @ドワンゴ本社
  2. 2. データに関する最近の話題 • ソーシャルメディア・データ • ビッグ・データ • オープン・データ
  3. 3. ソーシャルメディア・データ • 誰もが参加できるスケーラブルな情報発信技 術を用いて、社会的インタラクションを通じ て広がっていくように設計されたメディア – 掲示板:2ちゃんねる – ブログ:アメーバブログ、はてな – Wiki :Wikipedia – SNS :Facebook, twitter, mixi, – 画像や動画の共有サイト:Youtube, ニコニコ動画 – 投稿サイト:Kakaku.com, slash dot, • データ:大量、個人性、社会性、オープン 性 http://ja.wikipedia.org/wiki/ソーシャルメディア
  4. 4. ビッグ・データ • “情報通信、とくにインターネットの発達に ともなって爆発的に増大した構造化されてい ない莫大な量のデータ” • “通常のデータベース管理ツールなどで取り 扱う事が困難なほど巨大な大きさのデータの 集まりのこと” • “大量のデータを許容できる時間内に効率的 に処理するための特別な技術を必要” – 超並列データベース、分散ファイルシステム、ク ラウドコンピューティング、データマイニング、 機械学習… http://ja.wikipedia.org/wiki/ビッグデータ
  5. 5. オープンデータとは • オープンデータとは、誰でも自由に使え て再利用もでき、かつ再配布できるよう なデータである。課すべき決まりは、た かだか「作者のクレジットを残す」ある いは「同じ条件で配布する」程度である。 http://opendatahandbook.org/ja/what-is-open-data/ • “A piece of data or content is open if anyone is free to use, reuse, and redistribute it — subject only, at most, to the requirement to attribute and/or share- alike.” http://opendefinition.org/
  6. 6. オープンデータとは • 利用できる、そしてアクセスできる – データ全体を丸ごと使えないといけないし、再作成に必要以上 のコストがかかってはいけない。望ましいのは、インターネッ ト経由でダウンロードできるようにすることだ。また、データ は使いやすく変更可能な形式で存在しなければならない。 • 再利用と再配布ができる – データを提供するにあたって、再利用や再配布を許可しなけれ ばならない。また、他のデータセットと組み合わせて使うこと も許可しなければならない。 • 誰でも使える – 誰もが利用、再利用、再配布をできなければならない。データ の使い道、人種、所属団体などによる差別をしてはいけない。 たとえば「非営利目的での利用に限る」などという制限をする と商用での利用を制限してしまうし「教育目的での利用に限 る」などの制限も許されない。 http://opendatahandbook.org/ja/what-is-open-data/
  7. 7. データは情報流通社会の資源 自由に利用 自由に再加 工 自由に再配 布
  8. 8. 例:センサや地域情報の統合 http://lsm.deri.ie/ 様々な機関からの公開 データを第3者が集めて表
  9. 9. ビッグ・データ オープンデータ ソーシャルメディア・ データ データ
  10. 10. ソーシャルメディア・データの 利用 • ソーシャルメディア・データの特徴 – 大量(とにかくでかいぜ) – 個人性(個人レベルの情報がわかる) – 社会性(個人間の関係・インタラクション、 集団性、社会全体の傾向) – 時間性・リアルタイム(タイムライン、今が わかる) – オープン性(他のデータとのつながり) • 目的x手法
  11. 11. ソーシャルメディア・データの利用の 目的 • 社会分析・社会発見 – 社会自身 – ソーシャルメディアの”社会” • ソーシャル・センサー by @tsakaki • 個人の活動の支援
  12. 12. http://jp.techcrunch.com/2012/08/03/20120801twitter-launches-its-own-political-barometer-to-track-u-s-presidential-elections/ Twitter、利用者の感情分析に基づく大統領選挙予測ページを開 設 朝日新聞、参議院選挙に関するtwitter分析
  13. 13. 震源地予測結果 Tokyo Osaka 実際の震源地 Kyoto 予測震源地 (提案) 風船:呟きの位置 色:呟き時刻 http://www.slideshare.net/tksakaki/twitter-5090597
  14. 14. 台風の進路予測 実際の経路 予測経路 (Particle Filter) http://www.slideshare.net/tksakaki/twitter-5090597
  15. 15. ソーシャルメディア・データの利用の 目的 • 社会分析・社会発見 – 社会自身 – ソーシャルメディアの”社会” • ソーシャル・センサー by @tsakaki • 個人の活動の支援
  16. 16. ソーシャルメディア・データの利用の 手段 • (データ処理一般) – 統計処理 • 回帰、主成分分析、クラスター分析 – 機械学習 • (ネットワークデータとして) – 複雑ネットワークの分析 • スケールフリー性(べき法則) • スモールワールド性 – 社会ネットワーク分析 • 中心性、クラスター係数… – コミュニティ抽出 • (時系列データとして) – バースト解析 – 予測 • (テキストデータとして) – 自然言語処理
  17. 17. 動画ネットワーク ノード数:8669 エッジ数:10795
  18. 18. 作者ネットワーク • ネットワークの直径は21 • ノード数:1362 – 出次数1以上:1156 – 入次数1以上:701 • エッジ数:2270 – 次数分布の累乗近似式 • 出次数:y = 988.32x^-2.395 • 入次数:y = 93.487x^-1.214 • コンポーネント数:60 – 最大サイズ:1227ノード y = 93.48x-1.21 0.1 1 10 100 1000 1 10 100 1000 入次数 作者数
  19. 19. まとめ • ソーシャルメディア・データは熱い! • でも割と”社会”現象の分析や予測と個人支 援とかに分化 • もっと“我々の世界”を開拓しよう

×