• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
ビッグデータ革命 クラウドがコモデティ化する「奇跡」
 

ビッグデータ革命 クラウドがコモデティ化する「奇跡」

on

  • 5,735 views

 

Statistics

Views

Total Views
5,735
Views on SlideShare
5,651
Embed Views
84

Actions

Likes
19
Downloads
137
Comments
0

6 Embeds 84

https://twitter.com 34
http://a0.twimg.com 27
http://paper.li 14
http://us-w1.rockmelt.com 5
https://www.facebook.com 3
http://www.linkedin.com 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    ビッグデータ革命 クラウドがコモデティ化する「奇跡」 ビッグデータ革命 クラウドがコモデティ化する「奇跡」 Presentation Transcript

    • 2011年11月19日楽天テクノロジーカンファレンス2011 ビッグデータ革命 クラウドがコモデティ化する「奇跡」 日経コンピュータ編集部 中田 敦 @Nakada_itpro
    • 自己紹介中田 敦(なかだ あつし) @Nakada_itpro「日経コンピュータ」編集部 記者1998年4月 日経BP社入社、「日経レストラン」編集部に配属2000年9月 ITニュースサイト「BizTech」編集部に異動2002年10月 「日経Windowsプロ」編集部に異動2006年1月 ITニュースサイト「ITpro」編集部に異動2008年4~6月 米国でクラウド・コンピューティング事情を取材2008年10月 「日経コンピュータ」編集部に異動2009年4月 「クラウド大全」刊行2010年4月 「クラウド大全 第二版」刊行
    • はじめに 最近、「奇跡」が 現実化し始めていることを ご存じですか?
    • 2011年7月米国カリフォルニア 2011年7月 米国カリフォルニア州 サンタクルーズ市では 犯罪が発生する前に、 警察官が犯罪現場に 現れるようになった
    • 2010年10月東京 コンピュータ将棋 「あから」 女流名人に勝つ
    • 2010年10月東京 以下のソフトの合議制 ・激指 ・GPS将棋 ・Bonanza ・YSS これらソフトの共通点は 「Bonanzaメソッド」 コンピュータ将棋 Bonanzaの開発者は、将棋が強く 「あから」 ない化学者
    • 2010年10月米国カリフォルニア 周囲の状況をビデオカメラで捉え、 自律的に判断する「自動運転自動車」を 米Googleが開発 米カリフォルニア州の公道を22万キロメート ル無事故で走った。
    • Google Self-Driving Carで検索 • http://www.youtube.com/watch?v=Y aGJ6nH36uI • http://www.youtube.com/watch?v=e XeUu_Y6WOw
    • 「奇跡」の共通点は大量データに対する高度な分析業務システム 様々な CRMシステム Webサイト、 ソーシャル 静止画、動画 センサーデータのデータ ログファイル のデータ ブログ ネットワーク サイト インター ネット ビッグデータ + 機械学習 + 高速な判断 異変を察知 近未来を予測 今を描き出す 不可能が可能に 後発が先発に勝つ 社会がより良くなる 周囲の状況を判断して自律的 将棋初心者の化学者が作った 犯罪が発生する前に、犯罪現 に走行する「自動運転自動 コンピュータ将棋ソフトが、 場に警察官が現れる 車」を検索エンジン会社が作 プロ棋士に勝つ り始めた ビッグデータ革命
    • コンピュータ将棋強さの秘密は「機械学習」●いままでのコンピュータ将棋プログラム 将棋知識 学習 チューニング プログラマー●現在のコンピュータ将棋プログラム 可変長 可変長 可変長 テキスト 可変長 テキスト 棋譜 テキスト 機械学習 テキスト (ログデータ)
    • ビッグデータの力に気付いた米グーグル電力産業 自動車産業Googleや丸紅が出資して、大西洋沖の洋上風力発電所と米国東部を結ぶ海底 フォードとグーグルが提携して、プ 車体についた画像センサーが送電網を建設。 ラグイン・ハイブリッド・カーの走 周辺の状況を判断する「自動 行システムを開発。移動履歴から 運転カー」を開発中 ユーザーの行動を予測し、最適な燃 料配分を提案する 総事業費は最 大5000億円。 600万KWを供 給予定広告・メディア産業 IT・家電産業 クラウド スマートフォン コンピューティン デジタル家電 グ
    • 2010年10月12日発表グーグル、巨大送電網建設へ
    • 5000億円、600万KW? ・Googleや丸紅が出資して、大 西洋沖の洋上風力発電所と米国 東部を結ぶ大規模な海底送電網 を建設する ・洋上風力発電所は、独立系発 電事業者が建設。それをニュー ジャージ州、デラウエア州、メ リーランド州、バージニア州に 送る ・総事業費は最大5000億円。 6000MW(600万KW)を供給 するGoogle公式ブログより
    • 5000億円、600万KW? 東京電力の最大電力 Google/丸紅の最大 2009年7月30日 電力 5450万KW 600万KW (54,500MW) (6,000MW) 東京電力が供給する最大電力の10分の1強を、 Google/丸紅連合が供給可能(しかも風力発電)
    • ビッグデータブーム到来 「ビッグデータ」市場に 大手ベンダーがこぞって参入中 ビッグデータ技術が あっという間にコモデティ化 ビッグデータ革命、到来!
    • 米フォードグーグルと組んで自動車クラウド
    • ビッグデータのパターン 大量に 深く 素早く 様々な種類のデータを、 大量のデータの中から、 現実世界で発生するイ 大量に保存する コンピュータが自動的 ベントをいち早くつか にパターンやルールを み、ルールと照らし合 見つけ出す わせて状況を判断し、 アクションに移す 現実世界 マッチング アクション データ パターンやルール 実現するための技術 パターンやルール ・Hadoop ・機械学習 ・CEP ・NoSQL ・データマイニング ・ストリーミング処理 ・キーバリュー型 ・GPGPU ・インメモリー データストア ・インデックス作成 データベース これらの技術をクラウドサービスとして提供 手軽に
    • 「大量に」を支える データスペース 「データベース」から「デー タスペース」への進化が必要 これから 構造化データ、非構造化データの双方をカバー データスペース 構造化データ 非構造化データ 基幹系 情報系 データ データ テキスト 静止画 動画 音声 RDB DWH 検索システム データベース データの種類毎に、異なるシステムで管理 これまで していた
    • 「深く」を特徴付ける 機械学習 最近のデータマイニングで よく使われるようになった手法 教師付き機械学習 教師無し機械学習 (応用例)異常検知 ベイジアンフィルター (応用例)高度なクラスタリング (応用例)迷惑メール判定 協調フィルタリング (応用例)レコメンデーション 従来のデータマイニングで 主に使われていた分析手法 複雑ネットワーク (応用例)レコメンデーション 相関分析 (応用例)問題点の発見 その他の手法 (応用例)信用リスク評価 回帰分析 テキスト分類 (応用例)需要予測 画像認識 クラスタリング (応用例)顧客の分類
    • ポイントは自動化●従来のAI:人間がデータを学習してモデル化 ●ビッグデータ時代のアプリケーション 学習 モデル化 学習 モデル化 ビッグ データ データ 人間 モデル コンピュータ モデル●従来のBI:人間がBIレポートを見ながら判断 モデル 人間 可視化 判断 コンピュータ 判断 イベント アクション イベント アクション BI マッチング レポート パターン 認識 パターン
    • 応用パターン異変を察知する マーケティング セキュリティ 環境保全・突発的な流行の検出 ・サイバー攻撃の検出 ・河川の水質汚染、大気汚染・人気検索ワードの検出 の兆候を検出撃を発見 医療/介護 コンプライアンス 通信事業・新生児の体調不良を検出 ・インサイダー取引など不 ・サービスレベル低下の検出・独居老人の見守り 正行為の検出 ・通信機器故障の予測 製造業 システム運用 金融業・完成品の不具合の検出 ・サーバーやパーツの故障 ・クレジットカードの不正利・製造装置の故障予測 予測 用の検出
    • 応用パターン異変を察知する●様々なログから「社員の不正」を検出 総務部 情報の所轄部署 情報システム部 人事部 業務アプリ 業務アプリ ケーション ケーション 顧客DB 人事DB ビルの ネットワーク 入退館システム 組織の垣根を越えて情報を収集 ArcSight 「退職2週間前の社員Aが、休日にオフィスに入り、 CRM(顧客関係管理システム)にアクセス。顧客 データを抜き出した」→不正検出!
    • 応用パターン近未来を予測する●サイバーエージェントによる「退会を予測する」取り組み ①ユーザーの行動履歴を分析 ②Webサーバーのログデー ③何らかの「特典」などを付 して、「退会」につながりそ タをリアルタイムに分析して、 与して、ユーザーに退会を思 うな行動の予兆を見つけ出す ユーザーの「退会しそうな兆 い留まらせる 候」を見つけ出す ☆ → ● → △ → ■ → 退会 Webサーバー ログデータ 特典 ● → △ → ■ → ☆ → 退会 会員 リアルタイム × → ● → △ → ◇ → 退会 Hadoop □ → ☆ → ● → △ → 退会 ●→△
    • 応用パターン近未来を予測する●フォードのPHV向けカーナビ ②データからユー カーナビの画面 ザーの走行パターン を分析 Google Storage パターン データ Prediction API ①自動車の走 行履歴を蓄積 ③時刻や場所 情報を伝達 ④時刻や場所情報 から目的地を予測。 最適ルートや燃費 パターンを予測 ⑤排気ガスの発生が規 制された「グリーン ゾーン」での走行が予 想される場合は、バッ テリーを節約する フォードのプラグインハイブリッド(PHV)カー API:アプリケーション・プログラミング・インターフェース
    • 応用パターン今を描き出す●マイニングブラウニーの「MitsuBachi」 Webサイト、ブログ ●競合はどうしている? メディアサイトに掲載されてい インター る広告バナーのサイズや掲載数 ネット などから競合企業が支払ってい る広告費用を推定 ●経済活動はどうなっている? ソーシャルネット 不動産情報サイトに掲載されて ワークサイト いる物件情報を分析すれば、ど の地域で再開発が始まったか分 かる。再開発地域では、築年数 の古い物件が減り始めるから
    • オラクルもHadoopマイクロソフトもHadoop
    • 大手ベンダーがこぞってHadoop関連の取り組み 会社名 時期 主な施策 米EMC 2010年7月 DWH「Greenplum」のベンダー、米グリーンプラムを買収 2011年4月 ネットワークパケット解析ツール「NetWitness」のベンダー、米ネットウィットネスを買収 2011年下期 Hadoopディストリビューション「Greenplum HD」を出荷予定 2011年下期 「Greenplum」とデータマイニングソフト「SAS」を統合したアプライアンスを出荷予定 米ヒューレットパッカード 2010年9月 統合ログ監視ソフト「ArcSight」のベンダー、米アークサイトを買収 2011年2月 カラム指向DB「Vertica」のベンダー、米バーティカを買収 2011年4月 「Hadoop」専用のPCサーバーハードウエアを発売 2011年8月 検索エンジンソフト「Autonomy」のベンダー、英オートノミーに買収提案 米IBM 2009年7月 データマイニングソフト「SPSS」のベンダー、米SPSSを買収 2010年3月 ストリーミング処理ソフト「InfoSphere Streams」を出荷 2010年9月 DWH「Netezza」のベンダー、米ネティーザを買収 2011年6月 Hadoopベースのデータ分析ソフト「InfoSphere BigInsights」を発売 米マイクロソフト 2008年1月 検索エンジンソフト「FAST」のベンダー、フィンランド・サーチ&トランスファーを買収 2011年5月 並列プログラミング基盤「LINQ to HPC(開発コード名:Dryad)」を出荷 2011年末~ Windows Server、Windows Azure向けの「Hadoop」を提供予定 2012年 SQL Server次期バージョン(開発コード名Denali)に、カラム指向DB機能を搭載 米ネットアップ 2011年6月 HadoopにRAID機能を追加する「Hadoop Open Storage System」を発表 米オラクル 2011年10月 Hadoopアプライアンス「Oracle Big Data Appliance」を発表 米SAP 2010年5月 データベース/DWHベンダーの米サイベースを買収 2010年12月 インメモリーデータベース「SAP HANA」を発売 NEC 2011年内 インメモリーデータベースを発売予定 開発中 ミッションクリティカル用途に特化した「MC Hadoop」を開発中 富士通 2011年8月 ビッグデータPaaS「SPATIOWL(スペーシオウル)」を発表 開発中 ストレージ装置「ETERNUS」上で稼働するHadoopを開発中 日立製作所 2011年1月 Hadoopの導入支援サービスを開始 開発中 検索性能に特化した「アウトオブオーダー実行型データベース」を開発中 NTTデータ 開発中 機械学習アルゴリズム「K平均法」をGPGPUを使って解くプログラムを開発中
    • 課題は人材
    • 「Growth Team」を作ろう• Growth Teamは、サービスの成長 (Growth)に責任を持ったエンジニア チームという意味。Dropboxが最初に始 めた取り組みで、ベイエリア界隈のス タートアップで増えている(らしい)
    • Dropboxの例 “Growth Enginner”を募集中
    • Dropboxの例Dropbox is one of the fastest growing startups on the Internet. Wewant to become the way the world stores and shares files, and werewell on our way.It isnt a mystery why: users love it. But also, weve built tools whichmake Dropbox easy to spread. Were kicking this into overdrive byexpanding the Growth Team. A growth engineer would substantiallycontribute to Dropboxs continued success. The process is simple:measure everything to understand it, come up with new ideas, testthe best ones, launch the best performing, and repeat this all asquickly as possible.For the growth engineer, the questions become: how can we scaleour analytics systems? What insights can we extract from our wealthof data to inspire the more incisive ideas? What tools can we build torun tests with dexterity?
    • Dropboxの例Role & Responsibilities:•Gather and process data from the Dropbox production servers•Scale our MySQL analytics databases•Measuring growth, usage rates of various Dropbox features, overallactivity levels, cost, revenue, and much, much more•Build and maintain web interfaces and dashboards to displayDropbox metrics•Analyze user data to help determine what kinds of improvementsDropbox should make•Work with the Dropbox web, mobile, and client teams to runexperiments on their respective platforms•Code in Python, HTML, Javascript, CSS, and possibly also C++•Continuously improve the quality of the analytics code base
    • Dropboxの例Requirements:•Bachelors degree in Computer Science.•Math doesnt intimidate you•Unix/Linux proficiency•SQL proficiency•Writing high quality, easy to understand code is important to you forpractical reasons, but also a little bit "just because".•Youre obsessive about correctness and edge cases, but at the sametime understand when to make sacrifices for practical reasons•A desire to go the extra mile and hold your projects to a higherstandard - youre the biggest critic of anything you do and have anappetite for solving problems and making things better•Good product sense - you can see things from both thegrowth/engineering and the general Dropbox users standpoint
    • Dropboxの例Nice-to-Haves:•Startup experience•Proficient in Python•Proficient with HTML/CSS/Javascript•Proficient in C++•Experience with managing servers / sysadmin experience•DBAdmin experience•Experience with distributed version control systems (Mercurial, Git).•Strong mathematical and statistical background
    • おしまい ありがとう ございました