最近のデータ分析の潮流(仮)
武田英明
@takechan2000
ニコニコ学会β第2回データ研究会 2013年7月27日 @ドワンゴ本社
データに関する最近の話題
• ソーシャルメディア・データ
• ビッグ・データ
• オープン・データ
ソーシャルメディア・データ
• 誰もが参加できるスケーラブルな情報発信技
術を用いて、社会的インタラクションを通じ
て広がっていくように設計されたメディア
– 掲示板:2ちゃんねる
– ブログ:アメーバブログ、はてな
– Wiki :Wikip...
ビッグ・データ
• “情報通信、とくにインターネットの発達に
ともなって爆発的に増大した構造化されてい
ない莫大な量のデータ”
• “通常のデータベース管理ツールなどで取り
扱う事が困難なほど巨大な大きさのデータの
集まりのこと”
• “大量の...
オープンデータとは
• オープンデータとは、誰でも自由に使え
て再利用もでき、かつ再配布できるよう
なデータである。課すべき決まりは、た
かだか「作者のクレジットを残す」ある
いは「同じ条件で配布する」程度である。
http://opendat...
オープンデータとは
• 利用できる、そしてアクセスできる
– データ全体を丸ごと使えないといけないし、再作成に必要以上
のコストがかかってはいけない。望ましいのは、インターネッ
ト経由でダウンロードできるようにすることだ。また、データ
は使いや...
データは情報流通社会の資源
自由に利用 自由に再加
工
自由に再配
布
例:センサや地域情報の統合
http://lsm.deri.ie/
様々な機関からの公開
データを第3者が集めて表
ビッグ・データ オープンデータ
ソーシャルメディア・
データ
データ
ソーシャルメディア・データの
利用
• ソーシャルメディア・データの特徴
– 大量(とにかくでかいぜ)
– 個人性(個人レベルの情報がわかる)
– 社会性(個人間の関係・インタラクション、
集団性、社会全体の傾向)
– 時間性・リアルタイム(タ...
ソーシャルメディア・データの利用の
目的
• 社会分析・社会発見
– 社会自身
– ソーシャルメディアの”社会”
• ソーシャル・センサー by @tsakaki
• 個人の活動の支援
http://jp.techcrunch.com/2012/08/03/20120801twitter-launches-its-own-political-barometer-to-track-u-s-presidential-electio...
震源地予測結果
Tokyo
Osaka
実際の震源地
Kyoto
予測震源地
(提案)
風船:呟きの位置
色:呟き時刻
http://www.slideshare.net/tksakaki/twitter-5090597
台風の進路予測
実際の経路
予測経路
(Particle Filter)
http://www.slideshare.net/tksakaki/twitter-5090597
ソーシャルメディア・データの利用の
目的
• 社会分析・社会発見
– 社会自身
– ソーシャルメディアの”社会”
• ソーシャル・センサー by @tsakaki
• 個人の活動の支援
ソーシャルメディア・データの利用の
手段
• (データ処理一般)
– 統計処理
• 回帰、主成分分析、クラスター分析
– 機械学習
• (ネットワークデータとして)
– 複雑ネットワークの分析
• スケールフリー性(べき法則)
• スモールワー...
動画ネットワーク
ノード数:8669
エッジ数:10795
作者ネットワーク
• ネットワークの直径は21
• ノード数:1362
– 出次数1以上:1156
– 入次数1以上:701
• エッジ数:2270
– 次数分布の累乗近似式
• 出次数:y = 988.32x^-2.395
• 入次数:y =...
まとめ
• ソーシャルメディア・データは熱い!
• でも割と”社会”現象の分析や予測と個人支
援とかに分化
• もっと“我々の世界”を開拓しよう
最近のデータ分析の潮流(仮)
最近のデータ分析の潮流(仮)
最近のデータ分析の潮流(仮)
最近のデータ分析の潮流(仮)
最近のデータ分析の潮流(仮)
最近のデータ分析の潮流(仮)
最近のデータ分析の潮流(仮)
最近のデータ分析の潮流(仮)
Upcoming SlideShare
Loading in...5
×

最近のデータ分析の潮流(仮)

1,428

Published on

ニコニコ学会β第2回データ研究会での発表です。

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
1,428
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
10
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

最近のデータ分析の潮流(仮)

  1. 1. 最近のデータ分析の潮流(仮) 武田英明 @takechan2000 ニコニコ学会β第2回データ研究会 2013年7月27日 @ドワンゴ本社
  2. 2. データに関する最近の話題 • ソーシャルメディア・データ • ビッグ・データ • オープン・データ
  3. 3. ソーシャルメディア・データ • 誰もが参加できるスケーラブルな情報発信技 術を用いて、社会的インタラクションを通じ て広がっていくように設計されたメディア – 掲示板:2ちゃんねる – ブログ:アメーバブログ、はてな – Wiki :Wikipedia – SNS :Facebook, twitter, mixi, – 画像や動画の共有サイト:Youtube, ニコニコ動画 – 投稿サイト:Kakaku.com, slash dot, • データ:大量、個人性、社会性、オープン 性 http://ja.wikipedia.org/wiki/ソーシャルメディア
  4. 4. ビッグ・データ • “情報通信、とくにインターネットの発達に ともなって爆発的に増大した構造化されてい ない莫大な量のデータ” • “通常のデータベース管理ツールなどで取り 扱う事が困難なほど巨大な大きさのデータの 集まりのこと” • “大量のデータを許容できる時間内に効率的 に処理するための特別な技術を必要” – 超並列データベース、分散ファイルシステム、ク ラウドコンピューティング、データマイニング、 機械学習… http://ja.wikipedia.org/wiki/ビッグデータ
  5. 5. オープンデータとは • オープンデータとは、誰でも自由に使え て再利用もでき、かつ再配布できるよう なデータである。課すべき決まりは、た かだか「作者のクレジットを残す」ある いは「同じ条件で配布する」程度である。 http://opendatahandbook.org/ja/what-is-open-data/ • “A piece of data or content is open if anyone is free to use, reuse, and redistribute it — subject only, at most, to the requirement to attribute and/or share- alike.” http://opendefinition.org/
  6. 6. オープンデータとは • 利用できる、そしてアクセスできる – データ全体を丸ごと使えないといけないし、再作成に必要以上 のコストがかかってはいけない。望ましいのは、インターネッ ト経由でダウンロードできるようにすることだ。また、データ は使いやすく変更可能な形式で存在しなければならない。 • 再利用と再配布ができる – データを提供するにあたって、再利用や再配布を許可しなけれ ばならない。また、他のデータセットと組み合わせて使うこと も許可しなければならない。 • 誰でも使える – 誰もが利用、再利用、再配布をできなければならない。データ の使い道、人種、所属団体などによる差別をしてはいけない。 たとえば「非営利目的での利用に限る」などという制限をする と商用での利用を制限してしまうし「教育目的での利用に限 る」などの制限も許されない。 http://opendatahandbook.org/ja/what-is-open-data/
  7. 7. データは情報流通社会の資源 自由に利用 自由に再加 工 自由に再配 布
  8. 8. 例:センサや地域情報の統合 http://lsm.deri.ie/ 様々な機関からの公開 データを第3者が集めて表
  9. 9. ビッグ・データ オープンデータ ソーシャルメディア・ データ データ
  10. 10. ソーシャルメディア・データの 利用 • ソーシャルメディア・データの特徴 – 大量(とにかくでかいぜ) – 個人性(個人レベルの情報がわかる) – 社会性(個人間の関係・インタラクション、 集団性、社会全体の傾向) – 時間性・リアルタイム(タイムライン、今が わかる) – オープン性(他のデータとのつながり) • 目的x手法
  11. 11. ソーシャルメディア・データの利用の 目的 • 社会分析・社会発見 – 社会自身 – ソーシャルメディアの”社会” • ソーシャル・センサー by @tsakaki • 個人の活動の支援
  12. 12. http://jp.techcrunch.com/2012/08/03/20120801twitter-launches-its-own-political-barometer-to-track-u-s-presidential-elections/ Twitter、利用者の感情分析に基づく大統領選挙予測ページを開 設 朝日新聞、参議院選挙に関するtwitter分析
  13. 13. 震源地予測結果 Tokyo Osaka 実際の震源地 Kyoto 予測震源地 (提案) 風船:呟きの位置 色:呟き時刻 http://www.slideshare.net/tksakaki/twitter-5090597
  14. 14. 台風の進路予測 実際の経路 予測経路 (Particle Filter) http://www.slideshare.net/tksakaki/twitter-5090597
  15. 15. ソーシャルメディア・データの利用の 目的 • 社会分析・社会発見 – 社会自身 – ソーシャルメディアの”社会” • ソーシャル・センサー by @tsakaki • 個人の活動の支援
  16. 16. ソーシャルメディア・データの利用の 手段 • (データ処理一般) – 統計処理 • 回帰、主成分分析、クラスター分析 – 機械学習 • (ネットワークデータとして) – 複雑ネットワークの分析 • スケールフリー性(べき法則) • スモールワールド性 – 社会ネットワーク分析 • 中心性、クラスター係数… – コミュニティ抽出 • (時系列データとして) – バースト解析 – 予測 • (テキストデータとして) – 自然言語処理
  17. 17. 動画ネットワーク ノード数:8669 エッジ数:10795
  18. 18. 作者ネットワーク • ネットワークの直径は21 • ノード数:1362 – 出次数1以上:1156 – 入次数1以上:701 • エッジ数:2270 – 次数分布の累乗近似式 • 出次数:y = 988.32x^-2.395 • 入次数:y = 93.487x^-1.214 • コンポーネント数:60 – 最大サイズ:1227ノード y = 93.48x-1.21 0.1 1 10 100 1000 1 10 100 1000 入次数 作者数
  19. 19. まとめ • ソーシャルメディア・データは熱い! • でも割と”社会”現象の分析や予測と個人支 援とかに分化 • もっと“我々の世界”を開拓しよう
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×