Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
新世代インテリジェントシティ
フォーラム
~パネル討論資料~
「ビッグデータに関する研究動向」
2014年9月8日@慶應義塾大学SFC
文教大学情報学部情報システム学科 専任講師
阿部 秀尚
hidenao@shonan.bunkyo.ac.j...
KDD2013 word cloud
2014/9/8 新世代インテリジェントシティフォーラム@SFC 2
http://www.kdnuggets.com/2013/08/mining-a-data-mining-conference-ana...
データマイニングに関する国際会議を
中心に注目されているキーワード
ソーシャルメディア
◦ TwitterやFacebook,Flickr,YouTubeをはじめとするソーシャルメ
ディア
◦ テキスト,画像,映像により市民から発信される情報...
ビッグデータとオープンデータ
2014/9/8 新世代インテリジェントシティフォーラム@SFC 4
オープンデータ
開かれた政府
データには
基づかない
市民協働事業
政府機関,
自治体など
から公開される
公共データ
ビジネスレポートや
その...
ビッグデータ利活用人材の育成
国内事例
◦ 経緯:情報洪水→情報爆発(情報大航海)
→ビッグデータ
◦ 文部科学省事業「ビッグデータ利活用によるイノ
ベーション人材育成ネットワークの形成」
◦ “データサイエンティスト育成ネットワークの形成”...
一データマイニング研究者が思う
ビッグデータ
Volume
◦ 数千万レコードや数GBというのはビッグデータではない
◦ 「ダウンロードできないほどの容量がビッグデータ」(情報学研究所
所長・喜連川先生)→納得
◦ 今まで容量を喰うので消去し...
データ量と意味づけの関係
高次の意味がある情報
得られた生データ,
測定器の出力
低次の意味がある情報 個々のデータでの
パターン
(数値時系列,アイテム系列,
分類モデルなど)
目的推定
可能なモデル
データ量
数値データ,
ON/OFFなど...
時系列/系列パターンを利用した
属性構築とモデル生成
合
(例:オーダーエントリ-)
数値
(例:血液検査結果)
テキスト
→SNSでの発言内容など
アイテム集合
→行動履歴など
数値
→プローブデータなど
複合形式の時系列データ
複合的な時
...
今後のデータ活用社会に向けて
2014/9/8 新世代インテリジェントシティフォーラム@SFC 9
Upcoming SlideShare
Loading in …5
×

フォーラムパネル討論 20140908 for_upload

804 views

Published on

2014年9月8日に開催された新世代インテリジェントシティフォーラム@慶應SFCにて,パネル討論者として提供した話題.
ビッグデータとオープンデータの関わり,および研究動向やその先目指すデータ利活用に向けての話を簡単に紹介.

Published in: Technology
  • Be the first to comment

フォーラムパネル討論 20140908 for_upload

  1. 1. 新世代インテリジェントシティ フォーラム ~パネル討論資料~ 「ビッグデータに関する研究動向」 2014年9月8日@慶應義塾大学SFC 文教大学情報学部情報システム学科 専任講師 阿部 秀尚 hidenao@shonan.bunkyo.ac.jp 2014/9/8 新世代インテリジェントシティフォーラム@SFC 1
  2. 2. KDD2013 word cloud 2014/9/8 新世代インテリジェントシティフォーラム@SFC 2 http://www.kdnuggets.com/2013/08/mining-a-data-mining-conference-analytics-on-kdd-2013-conference.html
  3. 3. データマイニングに関する国際会議を 中心に注目されているキーワード ソーシャルメディア ◦ TwitterやFacebook,Flickr,YouTubeをはじめとするソーシャルメ ディア ◦ テキスト,画像,映像により市民から発信される情報 ◦ 市民による情報集積と活用の実現(Civic Tech運動などに関連) クラウド(CloudとCrowd双方) ◦ Cloud→ネット空間/処理能力の拡張 ◦ Crowd→人々の活動や思考のネット空間への取り込み ◦ IoT(デバイス単位でのネット接続可能化)によるデータ収集の加速 プライバシー保護 ◦ 匿名性×多様性による特定困難化 ◦ 多様性の脆弱性の例: 9月5日18:50 文教大学発のバスに乗車したSuica利用者は?→たった1人 ◦ プライバシーを保護したデータ分析手法の開発 2014/9/8 新世代インテリジェントシティフォーラム@SFC 3
  4. 4. ビッグデータとオープンデータ 2014/9/8 新世代インテリジェントシティフォーラム@SFC 4 オープンデータ 開かれた政府 データには 基づかない 市民協働事業 政府機関, 自治体など から公開される 公共データ ビジネスレポートや そのほかのビジネスによって 生み出されたデータ 巨大な 公共データ (気象,交通, 各種統計, 健康保健 など) ビッグデータ 公開されず, マーケティング, ビジネス分析, 情報機関で 扱われるデータ 科学研究 やソーシャル メディア, 非政府組織からの 巨大データ Gurinのブログ記事より (http://www.opendatanow.com/2013/11/new-big-data-vs-open-data-mapping-it-out/) ビジネス/人材育成の注目点 →ビッグデータとオープンデータを 有効に結び付けた「価値」の創出
  5. 5. ビッグデータ利活用人材の育成 国内事例 ◦ 経緯:情報洪水→情報爆発(情報大航海) →ビッグデータ ◦ 文部科学省事業「ビッグデータ利活用によるイノ ベーション人材育成ネットワークの形成」 ◦ “データサイエンティスト育成ネットワークの形成”(統 計数理研究所 他) →主に博士後期課程学生向け ◦ “スキルと実践を重視したビッグデータ・イノベーション 人材育成プログラム”(慶應義塾大学(理工学研究科・ SDM研究科)他)→修士学生向け 2014/9/8 新世代インテリジェントシティフォーラム@SFC 5
  6. 6. 一データマイニング研究者が思う ビッグデータ Volume ◦ 数千万レコードや数GBというのはビッグデータではない ◦ 「ダウンロードできないほどの容量がビッグデータ」(情報学研究所 所長・喜連川先生)→納得 ◦ 今まで容量を喰うので消去していたものを保存して,蓄積する →「そこから何を得るのか」がより重要に! Variety ◦ ソーシャルメディアの発達,デバイスの進化で飛躍的に向上 ◦ データの多様さ,結果の解釈のために必要な背景知識を 十分に扱えているのか?←研究者としての問題意識 Velocity ◦ 計算機の速度向上,処理機構の発展で恩恵を受けている ◦ ストリームを扱うにしても時間枠の設定などはまだまだ困難では? 2014/9/8 新世代インテリジェントシティフォーラム@SFC 6
  7. 7. データ量と意味づけの関係 高次の意味がある情報 得られた生データ, 測定器の出力 低次の意味がある情報 個々のデータでの パターン (数値時系列,アイテム系列, 分類モデルなど) 目的推定 可能なモデル データ量 数値データ, ON/OFFなど意味に乏しいデータ 小 膨大 複合形式の パターンマイニング 従来のパターン生成, データマイニング セマンティクス
  8. 8. 時系列/系列パターンを利用した 属性構築とモデル生成 合 (例:オーダーエントリ-) 数値 (例:血液検査結果) テキスト →SNSでの発言内容など アイテム集合 →行動履歴など 数値 →プローブデータなど 複合形式の時系列データ 複合的な時 系列/系列パ ターンから成 る知識 目的行動 (教師ラベル) テキストマ イニング テキストマ イニング 時系列テキス トマイニング テキストマ イニング テキストマ イニング 系列パターン 生成 テキストマ イニング テキストマ イニング 数値時系列 パターン生成 目的の分類予 測モデル生成 系列パターン評価指標時点毎 のデータ
  9. 9. 今後のデータ活用社会に向けて 2014/9/8 新世代インテリジェントシティフォーラム@SFC 9

×