ビックデータ戦略

1,489 views
1,363 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,489
On SlideShare
0
From Embeds
0
Number of Embeds
166
Actions
Shares
0
Downloads
12
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

ビックデータ戦略

  1. 1. ビックデータ戦略大規模データ分析の技術とビジネスへの活用フューチャーブリッジパートナーズ(株)代表取締役 長橋 賢吾kengo.nagahashi@futurebridge.jp
  2. 2. 筆者について 2000~2005年:慶応大学・東京大学・WIDE Projectで分散データベース(インターネット)の 研究ならびに開発に従事 2006~2009年:証券会社でITサービス担当の証 券アナリスト、企業収益のモデル化等に従事 2009年~:企業戦略、技術戦略(セカンドオピニ オンサービス)のコンサルティング等に従事 2
  3. 3. ビックデータのゴールどうやって、データの山から“宝”を発見 するか? 3
  4. 4. データの山から“宝”を発見する データの山から“宝”を発見する方法 パターンを発見する パターンの例:日本では冬に米は育たない パターンの例:迷惑メール 例:迷惑メールのパターンを発見する 線引き 迷惑メール 未公開情報 【重要】 無料紹介 コスト分析 特別大セール 来週のアポの件 見積書添付 正常メール 4
  5. 5. パターン発見(1) 情報サービスの売上パターン 2,500,000 2,000,000 1,500,000 3月と9月に売上が集中 1,000,000 500,000 0 6月 2月 6月 2月 6月 2月 6月 2月 6月 2月 1月 4月 9月 7月 5月 3月 8月 1月 4月 9月 7月 5月 3月 8月 1月 4月 9月 7月 5月 3月 8月 1月 4月 9月 7月 5月 3月 8月 1月 4月 9月 7月 5月 3月 10月 10月 10月 10月 10月 11月 12月 11月 12月 11月 12月 11月 12月 11月 12月 昭和63年平成元年 平成 2年 平成 3年 平成 4年 平成 5年 平成 6年 平成 7年 平成 8年 平成 9年 平成10年 平成11年 平成12年 平成13年 平成14年 平成15年 平成16年 平成17年 平成18年 平成19年 平成20年 平成21年 平成22年 平成23年平成24 1988年 1989年 1990年 1991年 1992年 1993年 1994年 1995年 1996年 1997年 1998年 1999年 2000年 2001年 2002年 2003年 2004年 2005年 2006年 2007年 2008年 2009年 2010年 2011年年 2012年 出所:経済産業省 特定サービス産業動態統計調査 情報サービス 5
  6. 6. パターン発見(2) 景気循環の波  設備投資→生産過剰にはパターンが見られる 出所: http://www.findai.com/yogow/w00858.htm 6
  7. 7. パターン発見(3) Google Insights for Search 12月~2月に集中 7
  8. 8. パターン発見(4) パターン発見のメリット “将来のパターン”に対する備え 例:毎年1月にスキーの検索クエリが増える→スポーツ用品店でスキーキャンペーンの準備等→ビジネスチャンスにつながる 99% 正しいパターン ≒統計的に正しい パターン発見のデメリット 100年に1回 →棄却 統計的正しさでしか予測できない パターン:冬はスキーのクエリの検索が増える テールリスク 帰納法の限界 100年に一度の大暖冬→100%正しいと信じ込まない 8
  9. 9. パターン発見(5) 企業においてどうやって“パターン”を発見するか? P・ルーンの考えたBusiness Intelligence System PRE-EDITINGでデータを揃える 揃えたデータをパターンストレージに 9 出所:IBM System Journal 1958
  10. 10. パターン発見(6) 企業決算にみるパターン発見とデータ標準化 3月決算の上場企業  東証ルールでは60日以内に決算開示の義務  企業A:4月25日に決算開示  企業B:5月20日に決算開示 違いは?  データの標準化  データを集めて、そろえて、パターンを発見す る 10
  11. 11. ETLフレームワーク パターン発見の手法: ETLフレームワーク 1. データを蓄積する(E) 2. 蓄積したデータを仕分けする(T) 3. 仕分けしたデータを格納する(L) E (Extract:抽出) DWH(データウェアハウス) データを取得する L(Load:ロード) データを格納する T(Transform:加工) データを仕分けする 11
  12. 12. E: Extract データを収集する  何を収集するか? 1. クローラー (web ページ) 2. POSデータ (小売店) 3. 訪問者 (アクセスログ) 12
  13. 13. T:Transform データを変換する  どのように変換するか?  データ正規化: 男、男性、男子 → 男  意味変換:  Google Page Rank:“引用度”が高い順にランキン グ  価格.com:“価格”が安い順にランキング 13
  14. 14. L:Load データをロード(格納)する  変換したデータをいつでも引き出せるように  どこに格納するか?  DWH( Data Ware House):テラデータなど  分散ストレージ GFSなど 14
  15. 15. データウェアハウス(1)システム会社が販売するデータウェアハウス 販売データ 経理データ 顧客データ 抽出・変換 OLAP データウェハウ 分析 データマイニング ス BIツール A部門DB B部門DB データマート 15
  16. 16. データウェアハウス(2) データウェアハウス≠システム会社 Googleのデータウェアハウス T (Transform:加工) ページランクで被引用数が多い Webページを順にランク付ける L (Load:保存) 処理に際して、MapReduceによって ページランクで加工したWebページE (Extract:抽出) を保存する リアルタイムに加工世界中すべてのWebページを取得する=ウェブスケール→リアルタイムでウェブスケールを解析 16
  17. 17. Hadoopの誕生 Googleのデータウェアハウス →Googleが独自運営、公開なし オープンソース検索エンジン Nutch  2002年、ダグ・カッティング氏が立ち上げる  目的:ウェブスケールを満たすオープン検索エンジン  2003年、公開するもウェブスケールには程遠い結果 Google技術GFS・MapReduceの援用  わずかに公開されている論文をもとに実装 →ウェブスケールを実現 並列分散処理部分をスピンアウトしてHadoopに リアルタイムでウェブスケールを分析できる時代へ 17
  18. 18. データ分析を企業戦略に活かす ウェブスケールを含めたデータ分析をどのように 活用するか? 戦略 1. 顧客一人一人をセグメンテーション化する 2. 意思決定に活用する 3. 位置情報を活用する 4. データを公開する 5. たくさんのモノを試す 18
  19. 19. セグメンテーション(1) セグメンテーション:ユーザ一人一人個別の“パターン” を見つけ、そのパターンに合ったサービスを提供 Amazon.com  “電子商取引の分野で生き残るためには、顧客最優先が 必要” (Amazon.com ジェフ・ベソスCEO)  顧客最優先のアプローチ→顧客ごとのリコメンド 一筋縄ではない大規模なリコメンド 1. 膨大なデータ量 – アイテム数に比例 2. リアルタイム – 膨大な量をリアルタイムで計算 3. 新規顧客 – レコメンドに必要な情報は僅か 4. 長期顧客 – 情報が過剰(例:親に代わって購入) 19
  20. 20. セグメンテーション(2) Amazonのレコメンド  アイテム間協調フィルタリング方式  “人”ではなく、アイテム間の相関関係を計算  顧客が購入したアイテムと親和性の高いアイテ ムをレコメンド AmazonのETLフレームワーク アイテム間 協調フィルタリング 商品情報 (書籍、おも ちゃなど) E (抽出) T(変換・加工) L(ロード) データを取得 “切り口”で加工 データを保存 顧客情報 (購入履歴、 レビュー履歴) 20
  21. 21. 意思決定に活用する 意思決定:データからパターンを発見して、それ を意思決定に役立てる ビールの需要予測  ピーク消費量は7月  仕込から出荷まで1カ月  正確な需要予測が不可欠  パターンの予測 出所: 「 オペレーションズ・リサーチ:経営の科学 43(8)」 能重 正規著 日本オペレーションズ・リサーチ学会 1998年 収録  月次ビール出荷数 = トレンド(TC)× 季節係数(S) × イレギュラー係数(I)  トレンド(TC):トレンド予測を外部データから取り込む  季節係数(S):季節ごとの調整項  イレギュラー係数(I):酒税の値上げなど  意思決定に必要なパターン:  要素に分解する → 分解することで後から検証可能 21
  22. 22. 位置情報を活用する 位置情報を活用する→位置情報からパターンを発見する 渋滞解析システム  道路の込み具合→常に変化  大量のデータが発生  車のプローブデータ  携帯電話プローブデータ  道路データ 出所:「平成21年度 産学連携ソフトウェア工学実践事業報告書」  大量データをどう処理するか? NTTデータ  Hadoopによる解決  処理時間 = Mapの処理時間 + Mapの完了率× Reduceの処理時間 22
  23. 23. データを公開する(1) データを公開する=パターンの発見を利用者に任 せる data.gov : 米国政府によるオープンガバメント 政策  政府が各種統計データを公開  どう、公開するか? 1. リテール方式:政府が加工 2. ホールセール方式:未加工 ホールセール方式の問題点 出所:data.gov  最新データをどう維持?  データフォーマットを統一? 23
  24. 24. データを公開する(2) データを公開するメリット:裾野の拡大 米国サンライト・ファンデーションによるアプ リコンテスト→data.govのデータを活用してア プリを作成 47ものアプリがあつまる1. datamasher.org: data.gov上のデータをマッ シュアップして、表示2. govplus.org: FR(連邦広報)の広報を検索、 視覚化して表示3. quakespotter.org: 地震が発生した際に、震 度等を表示 24
  25. 25. たくさんのモノを試す たくさんのモノを試す:たくさん試すことでよりよいパターンを発見する ビジョナリーカンパニーの議論:枝分れと剪定  たくさんのモノを試して、うまくいったもの残し、残 りを剪定 データ分析→枝分れと剪定の基準をつくりやす い どうやってたくさんのモノを試すか?  A/Bテスト 出所:Amazon.com 25
  26. 26. まとめ データからどうやって宝の山を見つけるか?  パターンを発見する どうやってパターンを発見するか?  ETLフレームワークでデータから情報に  データを集めて(E)、仕分けて(T)、保存する(L) ビックデータとは?  ETL処理が、ウェブスケールかつリアルタイムに パターン発見をどう企業戦略に活かすヒント 1. 顧客一人一人をセグメンテーション化する 2. 意思決定に活用する 3. 位置情報を活用する 4. データを公開する 5. たくさんのモノを試す 26
  27. 27. 詳しくは「ビックデータ戦略 大規模デ ータ分析の技術とビジネスへ の活用」長橋 賢吾 著秀和システム 2012年3月刊 27

×