ビッグデータ分析は
どこまで効率率率化できるか
株式会社Preferred Infrastructure
リサーチャー&Jubatusリーダー
⽐比⼾戸  将平
2013/05/27
第3回ビッグデータと統計学研究集会
概要:ビッグデータ分析を⽀支える3本の柱
効率率率化のために重要な3つめの柱の話をします
ビッグデータ分析
ビッグデータ
ITインフラ
統
計
学
デ
ー
タ
サ
イ
エ
ン
テ
ス
ト
?
l  ビッグデータ分析の現状
l  何が効率率率化をもたらすか?
l  実例例
l  まとめ
Agenda
ビッグデータ分析の導⼊入:まだまだこれから
l  IBMの2012年年調査
l  24%がまだビッグデータ活⽤用について調査段階
l  47%がビッグデータ活⽤用⽅方法について検討段階
l  わずか6%が実際に導⼊入してビジネス価値を⽣生み出している
l  導⼊入の困難さと効率率率化の困難さがやや混同されている
IBM Institute of Business Value “Analytics: The real-world use of big data”, 2013
Volume
Variety
Velocity
蓄積 分析
ビッグデータ分析プロセス
5
Complex
Event
Processing
Hadoop
NoSQL
バイオ
テキスト
M2M
メディア
データ分析から深い解析へ
6
分析
⾒見見える化集計
検索索 ルール処理理
SQL DWH BI
CEP M/RCQL
深い
解析
カテゴリ分類
レコメンド 異異常検知
予測
機械学習
(Machine
Learning)
ビッグデータ
解析
データ
アナリティクス
ビ
グ
デ
ー
タ
ビッグデータ分析の現状:ブラックボックス?
7
ビッグデータ
分析
データ
アナリティクス
応⽤用
利利益最⼤大化
コスト最⼩小化
需要予測
故障予知
営業戦略略最適化
パーソナライズ
マーケ最適化
ビ
グ
デ
ー
タ
ビッグデータ処理理系と解析ソフトウェアの組合せ
8
データサイエンティスト
ビッグデータ処理理系
応⽤用
利利益最⼤大化
コスト最⼩小化
需要予測
故障予知
営業戦略略最適化
パーソナライズ
マーケ最適化
⼤大規模DB
解析ソフトウェア
ビッグデータ分析の導⼊入と効率率率化における3つの壁
IT
2
3
l  パターン1:ビジネスに結びつける組織・体制  
l  パターン2:データ収集と蓄積の基盤  
l  ☆パターン3:解析の⼿手法とスキルと効果測定  
壁パターン1:ビジネスに結びつける組織・体制  
l  経営陣による戦略略決定、組織横断のチームづくり
l  関係部⾨門全てに対する負担要請と利利害調整
l  ビッグデータ分析の効果の公平な分配
IT
CAO
壁パターン2:データ収集と蓄積の基盤  
l  データが収集されていない、組織内にはるが出て来ない
l  蓄積するための統合ITインフラが⽤用意されていない
l  部⾨門単位でコストをかけるにはリスクが⾼高すぎる
…そこをなんとか…
機密情報だからなー
個⼈人情報保護もあるし。
そんなデータないよ。
え?新しく取れ?
(⾯面倒だな…)
データサイエンティスト
マネージャー
現場社員
壁パターン3:解析の⼿手法とスキルと効果測定
l  統計学が重要というコンセプトレベルでは皆同意
l  ⼀一⽅方でデータサイエンティストへの過度度の期待
l  「うちのビジネスをよく理理解してくれて〜~」
l  「コミュニケーション能⼒力力とPM⼒力力⾼高くて〜~」
l  「統計も機械学習の最新技術も全部わかってて〜~」
l  「PDCAサイクル回すの⼿手伝ってくれて〜~」
あー完璧なデータサイエンティスト
どっかにいないかな〜~
上層部
データサイエンティスト
……………………
スキルの問題:教育によりある程度度解決する⾒見見込み
l  真実:完璧なデータサイエンティストは存在しない
Communication
Skill
Business
Understanding
Project
Management
データサイエンティストグループの構築や
仕事を依頼する側のリテラシーの話は除外
l  主に導⼊入の困難さの解決につながる話しであるため
l  「データサイエンティストのつくり⽅方」
l  「(道具としての)データサイエンティストのつかい⽅方」
( )
PFI 2013/03/28
Preferred Infrastructure
Jubatus
Slideshareにて公開中
PFI 2012/09/13
Preferred Infrastructure
Jubatus
l  ビッグデータ分析の現状
l  何が効率率率化をもたらすか?
l  実例例
l  まとめ
Agenda
第3の⽀支え:進化した解析⽤用ソフトウェア
今ほとんど触れられることのない部分
ビッグデータ分析
ビッグデータ
ITインフラ
統
計
学
デ
ー
タ
サ
イ
エ
ン
テ
ス
ト
進
化
し
た
解
析
⽤用
ソ
フ
ト
現状使われているソフトウェア群
RDB / NoSQL Hadoop / SQL-like
Analytics
○○○出現以前のビッグデータ分析プロセス
[データサイエンティスト w/ Hadoop+R+Weka, 2013]
DB
プログラム⾔言語出現以前のプログラミング
[ENIAC, 1946]
出典:wikipedia.org
l  急募!配線エンジニア
l  設計書通りに壁の⽳穴から⽳穴へ配線を繋ぐだけの簡単なお仕事
l  これからのコンピュータ時代に求められるスキルが⾝身につきます!
解析ソフトウェアの進化:あまり考慮されていない
今後もこれからのツールがずっと使われるのか?
l  SPSS: 1975-
l  Matlab: 1984-
l  Weka: 1993-
l  GNU R: 1996-
l  元のS⾔言語は
1984-
RDB / NoSQL Hadoop / SQL-like
Analytics
統計リテラシーの向上と解析ツールの進歩により
データサイエンティスト不不要のケースが増⼤大
健全なビッグデータ分析を実現するために
l  ビッグデータという⾔言葉葉によって
データとミドルウェアだけに注⽬目が
集まっている
l  そこで解決できない課題を⼈人⼒力力で何
とかしてくれるデータサイエンティ
ストの出現と、その理理想像に関する
議論論が盛んに⾏行行われている
l  組織の意識識変⾰革や経営陣・マネジメ
ント層の統計リテラシー向上も重要
だが、その他の変化も⾒見見失ってはい
けない
解析ソフト
⼈人
組織
データ
ミドルウェア
l  ビッグデータ分析の現状
l  何が効率率率化をもたらすか?
l  実例例
l  まとめ
Agenda
解析ソフトウェアの進化とは
l  何が解析ソフトウェアをどう変えるのか
l  メモリの⼤大容量量化→インメモリ処理理のスケーラビリティ向上
l  仮想化技術→⾯面倒なデータ管理理をユーザーから隠蔽
l  ネットワークの⾼高速化→処理理結果を瞬時に伝送可能
l  ブラウザ上GUIの進化→ブラウザからカンタンにに使えるUI
l  クラウド→環境構築と性能増減のコストがほぼゼロに
l  進化した解析ソフトウェアの特徵
l  インメモリ動作:解析処理理のインタラクティブ性を重視
l  クラウド、SaaS化:データは向こう側に置いて結果だけ得る
l  使いやすいUIに特化:ユーザーの敷居を出来る限り下げる
l  シンプルな課⾦金金体系:無料料トライアル+機能x⽉月額料料⾦金金
紹介する実例例
l  インタラクティブなデータ可視化ツール
l  QlikView
l  Tableau
l  表形式データ加⼯工ツール
l  Fivetran
l  カンタンに使える機械学習ツール
l  bigML
l  Bazil
l  データサイエンティストのお助けツール
l  MLbase
インタラクティブなデータ可視化(1/2)
QlikTech - QliKview (1996-)
l  従来のBIツールとの違い:セルフサービス型
l  データをインメモリで保持しビューをその場で変更更可能
l  複数の情報源を透過的に組合せ検索索しながら深堀り・絞込み
l  概要ムービー
インタラクティブなデータ可視化(2/2)
Tableau (2003-)
l  VizQLという独⾃自の可視化クエリ⾔言語に基づいたシステム
l  Amazon EC2で動作可能、クラウドサービスもβテスト中
l  サンプルデモ
表形式データ加⼯工ツール:
Fivetran (2013-)
l  完全ブラウザベースで表形式データの処理理を実⾏行行
l  「ExcelとMatlabの間」
l  →独⾃自の処理理クエリを⼊入⼒力力すると結果が次の表になる
l  単なる変換から集計、時系列列分析まで機能を拡張中
l  サイト(現在はInvitationのみ)
カンタンに使える機械学習ツール(1/2)
bigML (2012-)
l  “Machine Learning for Everyone”
l  決定⽊木アルゴリズムによる学習&予測フローを固定化
l  パラメータ調整や結果の表⽰示を重視
l  動作デモ
分析
担当者
テキスト ログ/履履歴  
Webブラウザ クラウド
予測要因 予測評価
数値データ
カンタンに使える機械学習ツール(2/2)
Preferred Infrastructure - Bazil (2013-)
l  ⾮非構造データにフォーカスした分類ツール
l  テキストやログの前処理理機能+線形分類モデルを学習&予測
l  予測結果だけでなく有効な特徴量量まで含めて可視化
l  紹介サイト
データサイエンティストのお助けツール
UC Berkley - MLbase (2013-)
l  機械学習タスクの実⾏行行クエリを抽象的に記述
l  アルゴリズムやパラメータを変更更して分散実⾏行行
[Kraska+, CIDR2013]
解析ソフトウェアの変化がもたらすもの:
データサイエンティストの負担が減る
l  今は⾮非⼒力力でもソフトウェアの⾼高性能化と抽象化が後押し
l  不不要になる:⾯面倒なデータ管理理や前処理理の繰り返し
l  ⾃自動化される:実験設定を変更更しては再実⾏行行の試⾏行行錯誤
l  敷居が下がる:⼀一般ユーザーがExcelのようにこなせる仕事
従来のソフトウェア基盤 新しいソフトウェア基盤
BI
・例例:Cognos、BusinessObjects
・DB上でのバッチ処理理
・固定のビュー・ドリルダウン
・定型的なレポート中⼼心
・例例:QlikView、Tableau
・インメモリで⾼高速処理理
・⾃自由に変更更可能なビュー
・インタラクティブな分析
機械学習
・例例:R、MATLAB
・任意の解析処理理が実現可能
・専⽤用スクリプトの記述が必要
・結果の解釈は重視されていない
・例例:bigML、Bazil
・解析フローは固定、調整可
・スクリプト無し、設定のみ
・結果の可視化なども統合
l  ビッグデータ分析の現状
l  何が効率率率化をもたらすか?
l  実例例
l  まとめ
Agenda
まとめ
l  ビッグデータ分析を効率率率化するためのソフトウェアが
必ずこれからどんどん市場に出てきます
l  この解析ソフトウェアの進化は、データインフラの整備、
統計リテラシーの向上、組織的ビッグデータ戦略略の浸透、
データサイエンティストの育成と並⾏行行して進みます
l  重要なスキル、組織のIT戦略略、ソフトウェア、ミドル
ウェア、ハードウェア、コンピュータアーキテクチャは
刷新サイクルがそれぞれ異異なります
l  それを⾒見見極めるのが最先端を逃さないために重要です

ビッグデータはどこまで効率化できるか?