OpenData_DataCurator_20140927

2,588 views

Published on

オープンデータ・サミット(20140927)資料
データ活用ビジネスから見たオープンデータ

Published in: Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,588
On SlideShare
0
From Embeds
0
Number of Embeds
1,730
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

OpenData_DataCurator_20140927

  1. 1. データ活用ビジネスから見た オープンデータ 2014年9月27日 高梨益樹 LODチャレンジ委員/ 富士通株式会社 イノベーションビジネス本部 IC部 Copyright 2014 FUJITSU LIMITED オープンデータ・サミット
  2. 2. リアルワールド バーチャルワールド 大量データ収集 融合 知恵 リアルワールドの写像 センシング リアルワールドへのアクション ナビゲーション リアルワールドとバーチャルワールドが密接に連携 データ活用のあるべき姿 HSIS Copyright 2013 FUJITSU LIMITED 1
  3. 3. キュレーターとは データに語らせる Copyright 2014 FUJITSU LIMITED 2011年1月、BI/BA、コンサルタント、分析アルゴリズム研究者等を集約した 組織を設立 = データサイエンティスト システムデザイン アナリティクス モデリング × × キュレーターの専門スキル ・・・ ・・・ 統計量 系列パターン 項目組合せ 空間分割 次元圧縮 クラスタリング 欠損値推定 相関関係 因果関係 要因分解 ベクトル量子化 SVM(多項式カーネル) SVM(線形カーネル) ランダムフォレスト ブースティング 決定木 ナイーブベイズ バギング k-近傍法 ニューラルネットワーク 自己組織化マップ SVM(RBFカーネル) 交差検定 ホールドアウト 陽偽性判定 F Measure 経験損失 正則化 ROC曲線 期待誤差 汎化性能 オープンデータ + 2
  4. 4. キュレーターの事例 テーマ データ活用モデル 新ビジネス開発 ・疾病リスク予測 ・運転新評価指標作成 会員/顧客管理 ・会員の休眠/退会予測 ・コールセンターの入電数予測 ・ロイヤルカスタマーの特徴抽出 ・マーケティングの新指標作成 商品の売上予測 ・商品の売上/欠品予測 ・店舗属性別の売上予測 製造・生産プロセス/品質 管理 ・製造・生産品質分析による品質指標作成 ・歩留まりの改善 営業活動評価 ・売上予測 ・売上の構成要因の分析 ・営業施策の効果分析 ・自動発注/欠品予測 ・リアル/バーチャル最適化 ・Web、広告、営業活動の評価指標作成 Copyright 2014 FUJITSU LIMITED 3
  5. 5. 新しいサービスの 可能性 未活用のデータから疾病リスク予測 Copyright 2014 FUJITSU LIMITED ・ GPT(ALT) ・ MCHC ・ 血清尿酸 ・ 拡張期血圧 ・ 中性脂肪 ・ LDLコレステロール ・ 総コレステロール ・ 収縮期血圧 ・ ヘマトクリット値 ・ 血色素量 [ヘモグロビン値] ・・・ 健康診断データ ・ 空腹時血糖 ・ HbA1c ・ 服薬 ・ 診察/治療/入院 ・ 血清クレアチニン ・ HDLコレステロール ・ BMI ・ 血小板数 ・ γ-GT(γ-GTP) ・ 腹囲 ・ GOT(AST) ・ MCH ・ 総蛋白 ・ MCV ・ 白血球数 富士通独自の総合判定方式 レセプトデータ 一般的な判定項目 2万6000人、過去3年分のデータをもとにした推論結果(社内実証実験) 疾病リスク 高い人 予測結果 疾病リスク 低い人 (例) 健康食配達 (例) 運動サポート 4
  6. 6. データオリエンテッドな分析の例 5 Copyright 2014 FUJITSU LIMITED  人が教えられない「コツ」や「やり方」をデータから得るケース  データにより新しい人(業務以外の専門家)が参加可能 未活用のデータから疾病リスク予測 実績 高精度に予測 予測 ・GPT(ALT) ・MCHC ・血清尿酸 ・拡張期血圧 ・中性脂肪 ・LDLコレステロール ・総コレステロール ・収縮期血圧 ・ヘマトクリット値 ・血色素量 [ヘモグロビン値] ・・・ 健康診断データ ・HbA1c ・空腹時血糖 ・診察/治療/入院・服薬 ・血清クレアチニン ・HDLコレステロール ・BMI ・血小板数 ・γ-GT(γ-GTP) ・腹囲 ・GOT(AST) ・MCH ・総蛋白 ・MCV ・白血球数 富士通独自の総合判定方式 レセプトデータ 一般的な判定項目糖尿病に なっていない 糖尿病に なった 糖尿病に なった 糖尿病に なっていない 糖尿病になる 可能性あり 糖尿病になる 可能性なし  2万6000人、過去3年分のデータをもとにした推論結果(社内実証実験) データから強い将棋ソフトを作る 開発者の固定観念、先入観、 主観などにより、パラメータ設定 「局面評価関数」の 最適なパラメータを 自動学習 プロレベルの 棋力を実現 アマチュア 有段者レベル ※「Bonanza」は、保木邦仁先生(現電気通信大学特任助教)が開発したコンピュータ将棋ソフトです 約500パラメータ 約1億パラメータ ・将棋をよく知っている人 ・将棋の強い人、プロ これまでの将棋ソフト プロの棋譜 機械学習を用いた将棋ソフト(2005年*Bonanza~) 各駒の価値 駒と駒の位置関係 6万局 87点569点 歩角例 王 大統領選挙戦をデータ解析チームがリード TIMEより引用 http://swampland.time.com/2012/11/07/ inside-the-secret-world-of-quants-and-data- crunchers-who-helped-obama-win 毎晩6.6万回の シミュレーション  The Cave(オバマ陣営選挙対策本部内のデータ分析チーム)  4年前の大統領選の5倍に増員 ビッグデータ分析がオバマ陣営を勝利に導いた パーティ主催の 最適人物の発見等 データベース化 (有権者、世論調査、消費者等)
  7. 7. データオリエンテッドな考え方 Copyright 2014 FUJITSU LIMITED 課題2:データが足りない 課題1:ビジネス適用できるか 6
  8. 8. 課題1:ビジネス適用できるか Copyright 2014 FUJITSU LIMITED 強い相関 0.85 > ダウの値動き ○駅のタクシー列 日本株も上がり兜町界隈は好景気? ○駅と兜町は配車エリアが一緒? ○駅には戻りにくい? メカニズムを 解明しようとしても 先に進めない 条件に合った日は配車してデータ取得 ・ビジネスオペレーションが出来た ・発見した現象は起こらなくなった データオリエンテッドに 業務をつくる ECサイト並のデータ活用がリアルなビジネスの領域に 7
  9. 9. 課題2:データが足りない Copyright 2014 FUJITSU LIMITED ■データの選別コスト>蓄積コスト ■データの90%は2年以内に発生 データで理解可能な世界は2年で10倍に膨張している途中 Aと関連するのは? Aと関連するのはB メカニズム(結果/原因)も分かる メカニズムを解明しなくても 活用できるテーマを作る 特定のモノを捉えるための データ充足度の高い 小さな世界で考える 地域モデル、故障予測 8
  10. 10. 中部地方の最低気温 こまつなの中値 きゅうりの安値 関東地方の晴の割合 小売価格の平均 東北地方の最低気温 (週) 1 19 21 25 30 35 53 こんな使い方はできる Copyright 2014 FUJITSU LIMITED  各週の売上と同じ動きをしているデータを探す(少数の組合せで通年 の売上を説明できないか) データ 取引価格、各地の天気 など1304種類 売上と 因子の差 AAの取引量 東北地方の最低気温 BBの中値 CCの安値 小売価格の平均 関東地方の晴れの割合 黒線が正解:6種のデータで通年の売上に連動 ・1次データの組合せ(1175京通り)の中から探しだす。 ・ヒトが売上に関連あるデータと考えていたものと、正解は異なる。 9
  11. 11. こんな使い方はできる Copyright 2014 FUJITSU LIMITED ・役立つデータの系列を求める。 ・2次データを使って予測精度を上げる。 1次データ 第1階層 2次データ 第2階層 第n階層 1,304 種類 取引価格 天気 気象 平均価格 ・・・・・ ・・・ 1次データの中に答えはない。1次データ間に溶け込んだ社会や ビジネスロジックの持つ複雑さを加味した2次データを作る 売上 オープンデータを知識ベースとして使う 200種のデータから嗜好の地域指標を抽出する →少ししか得られない → このような使い方には、現状のオープンデータはまだ足りない。 10
  12. 12. Copyright 2014 FUJITSU LIMITED 注意しなければいけないこと 内部データ 膨張し続けるデータ (社会) ヒトに見えていない、 データや関連性が存在する 内部データ ヒトに見えている因果関係 でしかデータを捉えられない 役立つと考える データをヒトが選ぶ 何が役立つかをデータに問う。 コトを理解するために外部データを使う。 データが増え続けることで精度が上がる。 →まずは、多くのデータを使うこと。 全体から 役立つデータを探す × × 11
  13. 13. Copyright 2014 FUJITSU LIMITED 重大発表 12
  14. 14. 富士通研究所: 富士通研究所で研究開発中のLOD活用基盤「LOD4ALL」をLODチャ レンジ向けに基盤提供予定(10月上旬~3月末) LODチャレンジ向け特別機能 過去に投稿されたデータセットや投稿アプリで使用されたデータ等を格納 簡単なAPIを通して、格納データを参照可能 Copyright 2014 FUJITSU LABORATORIES LIMITED 過去の投稿作品 175作品(RDF) 過去の投稿アプリで 使用されたLOD ※ DBpedia DBpedia-Japanese GeoName Uniprot LOD Cloud中の 有名なデータセット ※ New York Times World Bank europeana-lod opencyc eurostat (他) 公開後、追加予定 のデータセット LODAC BDLS NDL様提供 (NDLSH他) データ検索画面 公開時の格納データセット ※二次利用可能かつダウンロード可能なデータセット 13
  15. 15. Copyright 2014 FUJITSU LIMITED

×