Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Data Science Summit 2012 レポート

5,656 views

Published on

Hadoop ソースコードリーディング第10回での発表資料です。2012年5月23日にラスベガスで開催された Data Science Summit 2012 の講演内容をレポートにまとめました。

Published in: Technology
  • Be the first to comment

Data Science Summit 2012 レポート

  1. 1. Data  Science  Summit  2012  レポート   草薙 昭彦  (@nagix)   EMC  Greenplum  
  2. 2. 自己紹介  •  草薙 昭彦  (@nagix)  •  EMC  Greenplum  テクニカル・コンサルタント  
  3. 3. ココ  
  4. 4. Data  Science  Summit  2012  とは  •  2012年5月23日開催(EMC  World  2012併設)  •  今年2回目  •  アカデミア、ソーシャルエンタープライズ、ス タートアップ、公共セクタなど各界のリーダー がネタを持ち寄り「Data  Drivenな世界」への道 筋を示す集い  •  キーノート、事例紹介、パネルを含む計9つの セッション  
  5. 5. Opening  Keynote:  What  We  Can  Predict  About  PredicJon  •  講演者   –  Nate  Silver   統計専門家・NY  Timesの政治ブログ 「FiveThirtyEight.com」設立者・ライター。 2008年米大統領選の予測で有名。2009 年Time誌「世界で最も影響力のある100 人」 •  現実のデータに予測モデルを適用する際の 難しさとその影響について警告  •  いくつかの分析事例  
  6. 6. Opening  Keynote:  What  We  Can  Predict  About  PredicJon  
  7. 7. Opening  Keynote:  What  We  Can  Predict  About  PredicJon  
  8. 8. Opening  Keynote:  What  We  Can  Predict  About  PredicJon  
  9. 9. Opening  Keynote:  What  We  Can  Predict  About  PredicJon  •  研究者は不確実性やリスクを包含した、現実 的な予測モデルを開発すべき   –  例:  最近のノースダコタ州North  Forksの洪水では 気象予測は51フィートの堤防高に対し49フィート の水位上昇を予測したが、9フィートの誤差を考 慮しなかった   –  例:  Deep  BlueとGary  Kasparovのチェス対戦では、 KasparovはDeep  Blueのバグを作戦と勘違いし、 最後まで「ノイズ」を取り除けなかった  
  10. 10. Roundtable:  Economic,  PoliJcal,  &  Societal  Roles  of  Social  Data  •  パネリスト   –  Jeffrey  Davitz:  Solariat設立者・CEO   –  Dan  Neely:  Networked  Insights設立者,・CEO   –  Andreas  Weigend:  スタンフォード大Social  Data   Lab・元Amazon.com  Chief  ScienJst   –  Nathan  Wolfe:  Global  Viral  ForecasJng設立者・ CEO・スタンフォード大客員教授 •  ソーシャルデータからどのように価値を見つ け出すことができるか?新しいルールとは?  
  11. 11. Roundtable:  Economic,  PoliJcal,  &  Societal  Roles  of  Social  Data  
  12. 12. Roundtable:  Economic,  PoliJcal,  &  Societal  Roles  of  Social  Data  •  ユーザーの「query-­‐like  intent」を自然言語解析 と機械学習で捉える  •  Solariatは出版業界と協業し、twiberユーザーの 興味と一致するコンテンツを配信するサービスを 提供   –  クリックスルー率は20%超、スパム扱いもされない  •  コンテンツからコンテキストへ、コンバージョンか らカンバセーションへ。カンバセーションがマー ケットを形成する  
  13. 13. Big  Data  TransformaJon  •  講演者   –  John  Brownstein:  HealthMap共同設立者・ Harvard  Medical  School准教授   –  Nora  Denzel:  Intuit  Big  Dataマーケティング ソーシャルSVP   –  Oren  Etzioni:  ワシントン大教授・Decide.com 共同設立者   –  Tarek  Kamil:  InfoMoJon  Sports  Technologies エグゼクティブディレクター   –  Nate  Silver:  統計専門家・FiveThirtyEight.com ライター
  14. 14. Big  Data  TransformaJon  –  HealthMap  
  15. 15. Big  Data  TransformaJon  –  HealthMap  •  ソーシャルネットワークはモノを売るマーケッ トだけではなく、学習・トレンドの収集・世界を 支援する場でもある  •  1996年ではウイルスのアウトブレイクを検知 するのに160日かかったがいまでは20日へ  •  HealthMapは世界5万都市からの情報を一日 2000回データベースの更新を行い、潜在的な ウイルスの検知に備えている  
  16. 16. Big  Data  TransformaJon  –  Intuit  
  17. 17. Big  Data  TransformaJon  –  Intuit  •  「Big  Data  for  The  Lible  Guy」:  Big  Dataの恩恵 はスモールビジネスからコンシューマまで到 達  –––  例:  Mint.com   –  個人は大きなコミュニティと比較したい   –  スモールビジネスは競合と比較して支出はどうか、 雇用を今増やすべきか、売上げを増やすべきか 減らすべきかを知りたい  •  データの力により、これまでにはない新たな 質問と答えが生まれ、古いものを駆逐する  
  18. 18. Big  Data  TransformaJon  –  InfoMoJon  Sports  Technologies  
  19. 19. Big  Data  TransformaJon  –  InfoMoJon  Sports  Technologies  •  バスケットボールに仕込んだセンサーであら ゆるボールの動きをトラック   –  バウンド、インパクト、スピンレート、シュートの弧、 さらには個々のプレーヤーの身体能力まで  •  ユースリーグや大学で高いトレーニング効果  
  20. 20. Big  Data  TransformaJon  –  Decide.com  
  21. 21. Big  Data  TransformaJon  –  Decide.com  •  価格比較サイト&アプリ  •  ソーシャルデータを基に、5000商品の販売業 者が決して提供できないオンラインショッピン グの買い時、待ち時を教えてくれる   –  買い時:  価格が底に近い   –  待ち時:  価格が下がりそう  or  新モデルが出そう  •  理由の詳細や買うべき価格まで明らかにして くれるため、消費者は行動をとりやすい  
  22. 22. AnalyJcs  Maturity:  Master  or  Novice?  •  講演者   –  Michael  Chui   マッキンゼー・グローバル・インスティ テュートシニアフェロー。「Big  data:  The   next  fronJer  for  innovaJon,  compeJJon   and  producJvity」レポート共同著者 •  次世代の労働者が高い競争力を身につける ために、教育機関は統計分析をより重視する 必要がある  
  23. 23. AnalyJcs  Maturity:  Master  or  Novice?  
  24. 24. AnalyJcs  Maturity:  Master  or  Novice?  •  「2010  NaJonal  Academies  study」によると、 ScienceおよびEngineeringの卒業生の比率は 29の富裕国の中でアメリカは27位  •  計算法ではなく、統計を教えるべき。ビジネス で微分積分なんか使うか?条件付き確率、 選択バイアス、その他データサイエンスが もっと必要  •  このような技術的な課題を解決することは組 織をまたがって人々の考え方を変えて行く  
  25. 25. AnalyJcs  Maturity:  Master  or  Novice?  •  MGIレポート「Big  data:  The  next  fronJer  for   innovaJon,  compeJJon  and  producJvity」   –  アメリカの全産業における従業員数1,000人以上 の企業では、少なくとも200TB以上のデータを抱 える(2009年)  •  必要なのはベストプラクティスではなく「ネクス トプラクティス」  •  ビジネスリーダー、教育者、一般市民はBig   Dataの価値と課題について意識すべし  
  26. 26. Keynote:  NavigaJng  the  Road  from  Business  Intelligence  to  Data  science:  Trials  and  Triumphs  •  講演者   –  Piyanka  Jain   Aryng創業者・社長・CEO。分析関連のビジ ネスカンファレンスでの講演多数。Aryng はビジネス分析のトレーニングを提供する 企業。Google、eBay、Paypalなども顧客 •  BIの限界とは? データサイエンスの恩恵を受 けるのに必要なものは? データサイエンスを 取り入れることで現場はどう変わる??  
  27. 27. Keynote:  NavigaJng  the  Road  from  Business  Intelligence  to  Data  science:  Trials  and  Triumphs  
  28. 28. Keynote:  NavigaJng  the  Road  from  Business  Intelligence  to  Data  science:  Trials  and  Triumphs  •  「How  do  you  navigate  from  B.I.  to  B.I」   –  Business  Intelligenceからビジネスインパクトへ   –  Data  SavvyからIntelligence  Heavyへ  •  データサイエンティストだけではなく、すべて の人がデータを基にした決断の方法について 理解を深めるべき   –  世界は変化しており決断の根拠となるデータをも つことはnice-­‐to-­‐haveではなく必須要件  
  29. 29. Keynote:  NavigaJng  the  Road  from  Business  Intelligence  to  Data  science:  Trials  and  Triumphs  
  30. 30. Panel:  From  Raw  Data  to  Value  Data  •  パネリスト   –  Michael  Brown:  comScore  CTO   –  Bob  Flores  –  Applicology設立者・社長・元 CIA  CTO   –  Jeremy  Howard:  Kaggle社長・Chief   ScienJst   –  Tony  Jebara  –  Sense  Networks共同設立 者・コロンビア大准教授  •  Big  Dataはゴミ、しかしその中に価値がある  
  31. 31. Panel:  From  Raw  Data  to  Value  Data  
  32. 32. Panel:  From  Raw  Data  to  Value  Data  •  プライバシーの問題   –  Intuitではベストプラクティスのコンセンサスを組 織間で共有   –  匿名データに過度の信頼をおくことには注意––– ソーシャルメディアでは情報が関連づけられて個 人の特定は可能  •  データ品質の問題   –  異常値を除外することは不要、時として最も興味 深いデータになり得る  
  33. 33. Panel:  From  Raw  Data  to  Value  Data  •  “Data  exhaust”の問題   –  Data  exhaust:  個人が日々インターネット上で行う 様々なインタラクションに関するデータの集合   –  現在でも議論の問題:  Data  exhaust特有のバイア スに注意   –  相関と因果関係の区別は大変難しい   –  保険会社でData  exhaustから最適な保険料を探 る実験を行ったが、結果的に過去のトランザク ションデータを活用する方が有効だった  
  34. 34. Panel:  Tapping  Into  the  Pulse  of  the  Data  Science  Movement  •  パネリスト   –  Joe  Hellerstein:  UCバークレー教授   –  Jure  Leskovec:  スタンフォード大助教授   –  Hadley  Wickham:  ライス大助教授   –  Chris  Wiggins:  コロンビア大助教授 •  Big  Dataに関する大学・研究機関での取り組 み  
  35. 35. Panel:  Tapping  Into  the  Pulse  of  the  Data  Science  Movement  
  36. 36. Panel:  Tapping  Into  the  Pulse  of  the  Data  Science  Movement  •  UCバークレーとスタンフォードの研究コミュニ ティでは1999年よりインターネット・SNSの活動 をグラフベースで観察し続けている  •  ユーザーエクスペリエンスが次の2年のチャレ ンジ。いかに人々の生産性を高めるかが鍵  •  偉大なData  ScienJstは結果だけではなくス トーリーで語れる。アカデミー界でも同じ。プロ パガンダじゃダメだけど。コミュニケーションが 重要  
  37. 37. Keynote:  Data  VisualizaJon  at  the  Point  of  Influence  •  講演者   –  Adam  Bly   Seed創業者・CEO。科学的なアプローチで 技術コンサルテーションを提供   •  データから得られた知見をいかにパワフルな ストーリーに変換するか?知見を明らかにす るだけでなくいかに理解を刺激するか?  
  38. 38. Keynote:  Data  VisualizaJon  at  the  Point  of  Influence  
  39. 39. Keynote:  Data  VisualizaJon  at  the  Point  of  Influence  •  地球上の70億人が科学的教養を身につける にはどうすればよいか?   世界中の複雑な出来事をどうやって科学的、 経験的、理性的に考えることができるか?   →工芸、認知プロセス、デザインツールが重 要  •  ビジュアライゼーションの手法は新しくなくとも 「新しいDataは新しいInsightをもたらす」  
  40. 40. Keynote:  Data  VisualizaJon  at  the  Point  of  Influence  
  41. 41. Closing  Keynote:  The  Promise  and  Peril  in  the  Human/  Technology  RelaJonship  •  講演者   –  Jonathan  Harris   プログラマー・アーティスト・ストーリーテ ラー。世界経済フォーラム2009  Young   Global  Leaders。作品はNY  MOMA常設展 示。TEDカンファレンススピーカー •  人間と技術のより良い関係、データサイエン スが持つ力で社会を形作るとき、ビジネスだ けではなく人々に対してもよい活用を  
  42. 42. Closing  Keynote:  The  Promise  and  Peril  in  the  Human/  Technology  RelaJonship  
  43. 43. Closing  Keynote:  The  Promise  and  Peril  in  the  Human/  Technology  RelaJonship  •  データがユビキタスになり予測分析やビジュ アライゼーションは新しい知見やビジネス機 械をもたらすが、課題として残るのはそのスト リーをいかに人々に伝えるか  •  人間個々の経験とデータの認知を尊重し、研 究者者は様々なツールや手法を活用すること が重要  
  44. 44. Closing  Keynote:  The  Promise  and  Peril  in  the  Human/  Technology  RelaJonship  
  45. 45. まとめ  •  さすがにアメリカ、この分野での投資は回り始 めている感はあります  •  分析プロセスやビジネス活用は、企業文化や 組織論に行きつくかと。底上げ大事  •  ビデオはこちらで見られます   –  hbp://www.greenplum.com/datasciencesummit/  

×