Data Science on Hadoop

© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopにおけるデータサイエンス
Yifeng Jiang
March 10, 2015

自己紹介
蒋　逸峰 (Yifeng Jiang)
•  Solutions Engineer @ Hortonworks Japan
•  HBase Book Author
•  ⽇日本に来て１０年年経ちました…
•  週末の趣味は登⼭山
•  @uprush

アジェンダ
•  データサイエンスとは?
•  機械学習の概要
•  教師あり学習モデルの詳細
•  Hadoopにおけるデータサイエンス

データサイエンスとは?

データサイエンスとは？
データの科学的探索索から意味や知⾒見見を抽出することであり、
ソフトウェアシステムを構築し、そのような知⾒見見をビジネス
に関連して活⽤用すること
... 発見の技術
... そしてオペレーションの科学

データサイエンスの分類
予測をする
予測分析
洞洞察を得る
記述的分析
クラスタニング
バスケット解析
異常値検出
分類
回帰
レコメンデーション

データサイエンスはビジネス・インテリジェンス（BI）の
次の⾃自然なステップ
価値
改良良抽出強化
データサイエンス
ダッシュボード
レポート
スコアカード
バスケット解析
異異常値検出
クラスタリング
レコメンデーション
回帰
分類
Business Intelligence: 測定 & カウント; 簡単な分析
Data Science: 発⾒見見 & 予測; 複雑な分析; “データ製品”
発⾒見見
予測

なぜデータサイエンスは必要なのか？
￥
•  サプライヤ統合
•  サプライチェーンと物流流
•  組⽴立立ラインの品質保証
•  プロアクティブメンテナンス
•  クラウドソースの品質保証
•  新規⼝口座のリスク審査
•  不不正防⽌止
•  取引リスク
•  預⾦金金スプレッドの最⼤大化
•  保険引受
•  ローン処理理の⾼高速化
•  通話詳細レコード（CDR）
•  インフラ投資
•  次に購⼊入する製品（NPTB）
•  リアルタイムでの帯域幅割
り当て
•  新製品開発
•  顧客の 360 度度ビュー
•  ブランドに対する市場⼼心理理
の分析
•  プロモーションのローカラ
イズとパーソナライズ
•  ウェブサイトの最適化
•  店舗レイアウトの最適化
⾦金金融業界⼩小売業界通信業界製造業界
医療療業界
電⼒力力、⽯石油
ガス業界
公共部⾨門
•  臨臨床実験でのゲノムデータの
活⽤用
•  患者のバイタルサインの監視
•  再⼊入院率率率の低減
•  医療療研究データの保存
•  薬剤実験協⼒力力者の募集
•  スマートメーターストリー
ム分析
•  油井減少曲線の減速
•  リース⼊入札の最適化
•  コンプライアンスレポート
•  プロアクティブな機器修理理
•  地震画像処理理
•  世論論の分析
•  重要なネットワークの保護
•  不不正や浪浪費の防⽌止
•  インフラ修復復をクラウド
ソースにより報告
•  記録の開⽰示請求の履履⾏行行
データサイエンスは、
これらすべてのユース
ケースにメリットを与
えます。

ウェブの巨人は、ビッグデータへのデータサイエンスを適
用し、データ製品のROIを証明した
Amazon: 35%の商品売上は
商品のレコメンデーション
経由
Netflix: 75%のビデオスト
リーミングはレコメン
デーションの成果
広告CTRの予測

データサイエンスとは反復復的なもの…
可視化、　
完全な理理解
仮定から　
モデル作成
測定/評価
データ　　
取得
データの　
クリーニング
質問を　　
公式化
配置

データ
探索索
フィーチャー
エンジニアリング
⽣生データ変更更
データサイエンスとは、様々な知識識を組合せたもの ...
データサイエンスは、
３つの主要グループ
と、それらをサポート
する機能から成り⽴立立っ
ています。
データサイエンティス
トは、技術的機能から
分析的機能まで、これ
らすべての知識識に習熟
している必要がありま
す。
信号処理理
OCR
変換
正常化
集計
簡易易統計
データ
モデリング
頻繁なアイテム
セット
異異常検出
クラスタリング
協調フィルタ
回帰
分類
教師あり学習教師なし学習
報告可視化データ品質
技術的分析的
次元縮⼩小
機能
選択
情報理理論論
⾃自然⾔言語処理理
（ NLP ）
前処理理

データサイエンスにおける専門分野
データエンジニア
•  データエンジニアリング（品質、
ETL 、パイプラインなど…）
•  コンピュータサイエンス
•  プログラミング（Java、 Scala、
Python など…）
応⽤用科学者
•  現実世界の問題の解決に取り組む研究
科学者
•  機械学習、⾼高度度統計、応⽤用数学、
NLP、可視化。
ビジネスアナリスト
•  ビジネスや特定分野の専⾨門知識識
•  SQL、Excel、可視化ツール
ビッグデータエンジニア
•  Hadoop、 PIG、 HIVE、カスケーディン
グ、SOLR など
•  ⼤大規模データセットに関する統計と機械
学習

データサイエンスにおける専⾨門分野
データエンジニア
•  データエンジニアリング（品質、 ETL
など…）
•  コンピュータサイエンス
•  コーディング（Java、 Scala、 Python
など…）
応用科学者
•  現実世界の問題の解決に取り組む研究
科学者
•  機械学習、高度統計、応用数学、NLP、
可視化。
ビジネスアナリスト
•  可視化
•  ビジネスや特定分野の専門知識
ビッグデータエンジニア
•  Hadoop、 PIG、 HIVE、カスケーディン
グ、SOLR など
•  大規模データセットに関する統計と機械
学習ユニコーン！

データサイエンティストのスキルの連続体
役割機能得意分野
応用科学者 •  データ内の信号を発見
•  モデルの構築・調整
•  アルゴリズムの選択
•  統計、機械学習
•  テキスト処理、 NLP
•  R、 MATLAB、 SAS、 SQL
•  スクリプティング
•  可視化 / わかりやすい説明
データエンジニア •  製品グレードのデータパイ
プラインの設計と実行
•  ソフトウェアエンジニアリン
グに関する基準の順守
•  データアーキテクチャの設計・実行
•  「生産品質」のコード作成
•  Hadoop、 PIG/HIVE、 Map-Reduce、運用管理
•  Java、 Python、 Perl、 SQL、 C++、
•  NoSQL （ Hbase、 Cassandra、 Mongo ）
ソフトウェア
エンジニア
リサーチ
サイエンティスト
データ
エンジニア
データ
応⽤用
科学者

データサイエンティストのスキルの連続体
ソフトウェア
エンジニア
リサーチ
データ
エンジニア
データ
応⽤用
科学者
こうした⼈人材は⼆二⼈人⼀一組で採⽤用する

機会学習の概要

機械学習とは？
•  機械学習とは、データから学習し、明⽰示的
なプログラムがなくても作動するコン
ピュータを実現させる科学
•  機械学習とは、データから学習が可能なシ
ステムの構築と研究を指す。
•  機械学習の核となるのは表現と⼀一般化への
取組みであり、システムが未知のデータイ
ンスタンス上で良良好に機能し、未知のイベ
ントを予測できるようになる。
•  機械学習には⾮非常に多様なタスクや、成功
しているアプリケーションがある。

WALL-‐‑‒E は 700 年年間⼈人間の
ものを収集するという経験を
地球上で積んだ後、感情を持
つことを学んだ機械のこと

教師あり学習
•  教師あり学習：トレーニ
ングデータ（機械学習ア
ルゴリズムに対して表現
されるデータ）にはラベ
ルが付けられている。こ
の場合、与えられたラベ
ルに基づく新データの分
類が機械のタスクになる。

教師なし学習
教師なし学習：機械ア
ルゴリズムにはトレー
ニングデータが全く与
えられておらず、新
データに関する情報を
発⾒見見しなければならな
い。

六六つの機械学習タスク
教師なしのタスク
•  クラスタリング
•  異異常値検出
•  バスケット解析
•  レコメンデーション

教師ありのタスク
•  分類
•  回帰

教師ありの例例: 検索索結果の広告CTR
Rank = bid * CTR
各広告のCTR を予測し、
広告の配置を決定
•  CTRの履履歴
•  キーワードマッチ
•  Etc…

教師なしの例例：製品の推奨
“嗜好の予測”：
Collaborative Filtering
似通った“好み”の⼈人間を特定

教師あり学習モデルの詳細

Model
予測
教師あり学習ワークフロー
フィーチャー
の抽出
モデル
トレー
ニング
モデル
⽣生データ
(Train)
ラベル
新規
データ
フィーチャー
の抽出
ラベル
トレーニング
予測
評価
モデル
Feature Matrix
Feature Vector

クローズアップ: フィーチャーの抽出
⽣生データ
ID Total$ Age City Target
101 200 25 SF
102 350 35 LA
103 25 15 LA
… … … …
Feature MatrixFeature
Engineering
Raw
Transforms
Signal
Processing
OCR
Geo-spatial
Normalize
Transform/
aggregate
Sample
Dimensionality
reduction
Feature
Selection
NLP
Mutual
Information
TB, PB
フィーチャー
の抽出
MB, GB

フィーチャーマトリックスのデータ構造
各行は１つのデータオブジェクト
各列は１つのフィーチャー（あるいは変数）
最後の列は時には特別な意味を持つ

サンプル: 売上のトランザクションデータ
Shopper ID TX ID Apple Banana Honey Milk Bread
101 TX 1 4 5 1 1 0
102 TX 2 0 2 0 1 1
103 TX 3 0 0 0 0 2
101 TX 4 1 1 0 0 0
Apple Banana Honey Milk Bread
Price $2 $1 $5 $3 $4
Age City Size of household
101 25 SF 4
102 35 LA 3

サンプル: 顧客フィーチャーマトリックス
正しいフィーチャーを決めるタスクは容易ではない
Shopper ID # Tx Total $ Age City
101 10 $200 25 SF
102 15 $350 35 LA
103 2 $25 15 LA
… 25 $5 15 NYC

クラスタニング: 自然グループの検出
クラスタ番号
ビジネスのユースケース
-  顧客セグメンテーション
-  ニュース記事の分類
ID Total$ Age City
101 $200 25 SF 2
102 $350 35 LA 2
103 $25 15 LA 1
… … … … 1
1
2
2
2

フィーチャーマトリックスはどれくらい⼤大きいのか?
例例:
•  10M ⾏行行, 100 フィーチャー
•  各フィーチャー= 8 bytes (double)
•  メモリーの合計 = ~∼7.5GB

クローズアップ: モデルのトレーニング
モデルの　　
トレーニング
トレーニン
グセット
モデル
モデル
の評価
メトリック
l  フィーチャーマトリックスはランダムに“トレーニング(70%)とバリデーション
(30%)セットに分けられる
l  モデルはトレーニングセットを使い作成され、エラー検出はバリデーションセット
により計算される
l  繰り返し処理理またはグリッドサーチは最適なアルゴリズムとパラメーターを選定
•  最適なモデル精度度が得られる
•  過度度な学習を防ぐ
バリデーショ
ンセット

分類器のパフォーマンスを評価
•  “confusion matrix” の決定
•  計算メトリックス:精密さ、再現率率率、精度度と
特異異性実際
Yes No
予測
Yes True
positives
False
positives
No False
negatives
True
negatives
Confusion Matrix
confusion matrixを⽤用いてこれらの数値を計算が可能　
精密さ = % of positive predicts that are correct
再現率率率 = % of positive instances that were predicts as posit
F1 スコア = a measure of testʼ’s accuracy, combining precisi
精度度= % of correct classiﬁcations

レコメンデーション–
ハイレベルフロー

フィーチャー抽
出
ALS
ユーザー／商
品マトリックス
生データ
レコメンデーショ
ン
MySQL /
HBase
ウェブサーバー
Hadoopクラスタ

Hadoopとデータサイエンス

YARN と Data Lake がサイエンティストに進化をも
たらしました
2013 年年秋、 YARN は、主に単⼀一ワークロードのサイロ化システムであった Hadoop を、複
数のワークロードを同時に実⾏行行できるマルチテナントシステムへと進化させました
YARN が Data Lake という概念念を可能にしたのです
•  データをすべて⽣生のフォーマットで格納する能⼒力力
•  サイロ化されたデータの統合
•  Data Lake の「価値」は、データ資産が移⾏行行してくるにつれ⾮非線形的に増加します
•  Hadoop は、今やストレージと処理理能⼒力力との共有資産といえます…
この進歩により、データサイエンティストは前もって資⾦金金調達⼿手配を⾏行行わなく
ても、アイディアを迅速にプロトタイプ化することが可能になりました
今すぐ、データにも処理理能⼒力力にもアクセス可能

新しいデータ
が必要です
やっと収集
が始まった
えっと・・・
それって何か
良良いことなの?
開始 6 ヶ⽉月 9 ヶ⽉月
“Schema change” プロジェクト
HDFSのフォルダ
に⼊入れておこう
えっと・・・
それって何か
良良いことなの?
3ヶ⽉月
⾃自分のモデルって
すごく良良いかも！
“Schema on read” はデータ改⾰革を加速

Hadoopは前処理理に最適
結合
正常化
OCR
サンプル
集計
⽣生データ
フィーチャー
マトリックス
NLP
Hadoop クラスタ
変換
機械学習に⼊入⼒力力

Hadoop は前処理理として理理想的
Feature
Engineering
Raw
Transforms
Signal
Processing
OCR
Geo-‐‑‒spatial
Normalize
Transform/
aggregate
Sample
Dimensionalit
y reduction
Feature
Selection
NLP
Mutual
Information
データモデリング
Frequent
Itemset
Anomaly
Detection
Clustering
Collaborative Filter
Regression
Classiﬁcation
Supervised
Learning
Unsupervised
Learning
前処理理
より良良いフィーチャーマトリックス
•  より多くの、かつ新しい機能
•  より多くのインスタンス
•  より多いデータでも⾼高速化

データサイエンスツールとHadoop
•  既存のツールの使⽤用：R, Python Scikit-‐‑‒learn or SASな
ど
•  Mahout：⼀一部のケースにおいては有効（ただし、将来
は…）
•  Spark ML-‐‑‒Lib:⽐比較的新しいソリューションにも関わらず
推奨

Hadoopによる教師ありモデルのトレーニング
•  通常 “トレーニングセット” はそれほど⼤大きくはない
•  この場合、通常ハイメモリーノードでのトレーニング
•  既存のツールの使⽤用: R, Python Scikit-‐‑‒learn or SAS
•  メモリに収まらない⾮非常に⼤大きなトレーニングセットの場合
•  ⼀一部のケースにおいてはMahout は有効　(ただし、将来は…)
•  Spark ML-‐‑‒Libは　⽐比較的新しいソリューションにも関わらず推奨
•  Hadoopはパラメーターチューニングにおいても有効
•  Grid-‐‑‒search: モデルのパラメーターの最適化

Hadoopによる教師ありモデルのスコアリング
•  ⼀一つのインスタンスのスコアリングは通常は早い
•  ⼀一部のケースでは、⼤大量量のデータポイントに対して頻繁に
バッチリスコアリングが必要（例例:20Mカスタマー）
•  PMML スコアリングエンジンを使⽤用　(e.g., Zementis, Pattern)
•  Python, R, Java, などによるカスタム実装

Hadoopによる教師なし学習
•  クラスタリング
•  多くのクラスタリングアルゴリズムは、並列列化されている
•  Distributed K-‐‑‒means は⼀一般的であり、Spark ML-‐‑‒Lib & Mahout
で利利⽤用が可能
•  Collaborative Filtering
•  Alternating Least Squares (ALS) – ⾮非常に並列列化
•  Mahout, Spark ML-‐‑‒Lib, などにALSが実装
•  商品別あるいは顧客別Collaborative FilteringがMahoutで利利⽤用可能

デプロイの考え⽅方: HadoopとR
•  Rと関連したパッケージはそれぞれのノー
ドにインストール
•  ユーザーはハイメモリーノードでRを実⾏行行
•  Rstudio または Rstudio サーバー
•  RCloud
•  Hadoopへのインターフェース
•  RMR: map-‐‑‒reduce を Rから実⾏行行
•  RHDFS: RからHDFSファイルをアクセス
•  RHIVE: Rからhive クエリを実⾏行行
•  RHBase: RからHbaseにアクセス
•  RODBC
Rstudio, Rcloud
Rhadoop
RHive
R . .
. . .
. . R
YARN
R high-
memory node

デプロイの考え⽅方: Hadoop と Python
•  それぞれのノードおよびハイメモリーノー
ドにPythonおよび関連パッケージをイン
ストール
•  ユーザーはPythonをハイメモリーノード
で実⾏行行
•  卓越したUIのIpythonノートブック
•  Hadoopへのインターフェース
•  PyDoop: PythonからHDFSへのアクセス
•  Hadoop ストリーミングによるMap-‐‑‒reduce
ジョブ　
•  PIGからPython UDFs を利利⽤用
IPython
Pandas, Scikit-learn
Numpy, Scipy
Matplotlib
PyDoop
Python
Scikit-learn
Pandas
. .
. . .
. .
Python
Scikit-learn
Pandas
YARN
Python high-
memory node

デプロイの考え⽅方: HadoopとSpark
•  ユーザーはEdge Nodeから直接Spark (あ
るいは ML-‐‑‒Lib) ジョブを実⾏行行
•  Scala API または Java API
•  Python API でも良良し
•  SparkはYARN ジョブとして直接実⾏行行
•  他に⼀一切切インストールする必要なし
Spark
ML-LibEdge node
Spark . .
. . .
. . Spark
YARN

まとめ

Hadoopにおけるデータサイエンス
•  データサイエンスはHadoopクラスタの重要機能の１つ
•  データサイエンティストは採⽤用が難しい、正しいスキル
を持つチームを採⽤用
•  HadoopやYARNがデータサイエンスの最適な環境を作
り上げた
•  Hadoopにはデータサイエンスを⾏行行うためのツールがた
くさんある

Thank You!
Yifeng Jiang – Solutions Engineer

Data Science on Hadoop

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Similar to Data Science on Hadoop

Similar to Data Science on Hadoop (20)

More from Yifeng Jiang

More from Yifeng Jiang (19)

Recently uploaded

Recently uploaded (12)

Data Science on Hadoop