最近のデータ分析の潮流(仮)
Upcoming SlideShare
Loading in...5
×
 

最近のデータ分析の潮流(仮)

on

  • 1,840 views

ニコニコ学会β第2回データ研究会での発表です。

ニコニコ学会β第2回データ研究会での発表です。

Statistics

Views

Total Views
1,840
Views on SlideShare
1,784
Embed Views
56

Actions

Likes
1
Downloads
7
Comments
0

1 Embed 56

https://twitter.com 56

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

最近のデータ分析の潮流(仮) 最近のデータ分析の潮流(仮) Presentation Transcript

  • 最近のデータ分析の潮流(仮) 武田英明 @takechan2000 ニコニコ学会β第2回データ研究会 2013年7月27日 @ドワンゴ本社
  • データに関する最近の話題 • ソーシャルメディア・データ • ビッグ・データ • オープン・データ
  • ソーシャルメディア・データ • 誰もが参加できるスケーラブルな情報発信技 術を用いて、社会的インタラクションを通じ て広がっていくように設計されたメディア – 掲示板:2ちゃんねる – ブログ:アメーバブログ、はてな – Wiki :Wikipedia – SNS :Facebook, twitter, mixi, – 画像や動画の共有サイト:Youtube, ニコニコ動画 – 投稿サイト:Kakaku.com, slash dot, • データ:大量、個人性、社会性、オープン 性 http://ja.wikipedia.org/wiki/ソーシャルメディア
  • ビッグ・データ • “情報通信、とくにインターネットの発達に ともなって爆発的に増大した構造化されてい ない莫大な量のデータ” • “通常のデータベース管理ツールなどで取り 扱う事が困難なほど巨大な大きさのデータの 集まりのこと” • “大量のデータを許容できる時間内に効率的 に処理するための特別な技術を必要” – 超並列データベース、分散ファイルシステム、ク ラウドコンピューティング、データマイニング、 機械学習… http://ja.wikipedia.org/wiki/ビッグデータ
  • オープンデータとは • オープンデータとは、誰でも自由に使え て再利用もでき、かつ再配布できるよう なデータである。課すべき決まりは、た かだか「作者のクレジットを残す」ある いは「同じ条件で配布する」程度である。 http://opendatahandbook.org/ja/what-is-open-data/ • “A piece of data or content is open if anyone is free to use, reuse, and redistribute it — subject only, at most, to the requirement to attribute and/or share- alike.” http://opendefinition.org/
  • オープンデータとは • 利用できる、そしてアクセスできる – データ全体を丸ごと使えないといけないし、再作成に必要以上 のコストがかかってはいけない。望ましいのは、インターネッ ト経由でダウンロードできるようにすることだ。また、データ は使いやすく変更可能な形式で存在しなければならない。 • 再利用と再配布ができる – データを提供するにあたって、再利用や再配布を許可しなけれ ばならない。また、他のデータセットと組み合わせて使うこと も許可しなければならない。 • 誰でも使える – 誰もが利用、再利用、再配布をできなければならない。データ の使い道、人種、所属団体などによる差別をしてはいけない。 たとえば「非営利目的での利用に限る」などという制限をする と商用での利用を制限してしまうし「教育目的での利用に限 る」などの制限も許されない。 http://opendatahandbook.org/ja/what-is-open-data/
  • データは情報流通社会の資源 自由に利用 自由に再加 工 自由に再配 布
  • 例:センサや地域情報の統合 http://lsm.deri.ie/ 様々な機関からの公開 データを第3者が集めて表
  • ビッグ・データ オープンデータ ソーシャルメディア・ データ データ
  • ソーシャルメディア・データの 利用 • ソーシャルメディア・データの特徴 – 大量(とにかくでかいぜ) – 個人性(個人レベルの情報がわかる) – 社会性(個人間の関係・インタラクション、 集団性、社会全体の傾向) – 時間性・リアルタイム(タイムライン、今が わかる) – オープン性(他のデータとのつながり) • 目的x手法
  • ソーシャルメディア・データの利用の 目的 • 社会分析・社会発見 – 社会自身 – ソーシャルメディアの”社会” • ソーシャル・センサー by @tsakaki • 個人の活動の支援
  • http://jp.techcrunch.com/2012/08/03/20120801twitter-launches-its-own-political-barometer-to-track-u-s-presidential-elections/ Twitter、利用者の感情分析に基づく大統領選挙予測ページを開 設 朝日新聞、参議院選挙に関するtwitter分析
  • 震源地予測結果 Tokyo Osaka 実際の震源地 Kyoto 予測震源地 (提案) 風船:呟きの位置 色:呟き時刻 http://www.slideshare.net/tksakaki/twitter-5090597
  • 台風の進路予測 実際の経路 予測経路 (Particle Filter) http://www.slideshare.net/tksakaki/twitter-5090597
  • ソーシャルメディア・データの利用の 目的 • 社会分析・社会発見 – 社会自身 – ソーシャルメディアの”社会” • ソーシャル・センサー by @tsakaki • 個人の活動の支援
  • ソーシャルメディア・データの利用の 手段 • (データ処理一般) – 統計処理 • 回帰、主成分分析、クラスター分析 – 機械学習 • (ネットワークデータとして) – 複雑ネットワークの分析 • スケールフリー性(べき法則) • スモールワールド性 – 社会ネットワーク分析 • 中心性、クラスター係数… – コミュニティ抽出 • (時系列データとして) – バースト解析 – 予測 • (テキストデータとして) – 自然言語処理
  • 動画ネットワーク ノード数:8669 エッジ数:10795
  • 作者ネットワーク • ネットワークの直径は21 • ノード数:1362 – 出次数1以上:1156 – 入次数1以上:701 • エッジ数:2270 – 次数分布の累乗近似式 • 出次数:y = 988.32x^-2.395 • 入次数:y = 93.487x^-1.214 • コンポーネント数:60 – 最大サイズ:1227ノード y = 93.48x-1.21 0.1 1 10 100 1000 1 10 100 1000 入次数 作者数
  • まとめ • ソーシャルメディア・データは熱い! • でも割と”社会”現象の分析や予測と個人支 援とかに分化 • もっと“我々の世界”を開拓しよう