SlideShare a Scribd company logo
1 of 48
Download to read offline
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopにおけるデータサイエンス
Yifeng  Jiang
March  10,  2015  
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
自己紹介
蒋  逸峰  (Yifeng  Jiang)
•  Solutions  Engineer  @  Hortonworks  Japan
•  HBase  Book  Author
•  ⽇日本に来て10年年経ちました…
•  週末の趣味は登⼭山
•  @uprush
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
アジェンダ
•  データサイエンスとは?
•  機械学習の概要
•  教師あり学習モデルの詳細
•  Hadoopにおけるデータサイエンス
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データサイエンスとは?
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データサイエンスとは?
データの科学的探索索から意味や知⾒見見を抽出することであり、
ソフトウェアシステムを構築し、そのような知⾒見見をビジネス
に関連して活⽤用すること
... 発見の技術
... そしてオペレーションの科学
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データサイエンスの分類
予測をする
予測分析
洞洞察を得る
記述的分析
クラスタニング
バスケット解析
異常値検出
分類
回帰
レコメンデーション
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データサイエンスはビジネス・インテリジェンス(BI)の
次の⾃自然なステップ
価値
改良良 抽出 強化
データサイエンス
ダッシュボード
レポート
スコアカード
バスケット解析
異異常値検出
クラスタリング
レコメンデーション
回帰
分類
Business  Intelligence:  測定  &  カウント;  簡単な分析
Data  Science:  発⾒見見  &  予測;  複雑な分析;  “データ製品”
発⾒見見
予測
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
なぜデータサイエンスは必要なのか?
¥
•  サプライヤ統合
•  サプライチェーンと物流流
•  組⽴立立ラインの品質保証  
•  プロアクティブメンテナンス
•  クラウドソースの品質保証
•  新規⼝口座のリスク審査
•  不不正防⽌止
•  取引リスク
•  預⾦金金スプレッドの最⼤大化
•  保険引受
•  ローン処理理の⾼高速化
•  通話詳細レコード(CDR)
•  インフラ投資
•  次に購⼊入する製品(NPTB)
•  リアルタイムでの帯域幅割
り当て
•  新製品開発
•  顧客の  360  度度ビュー
•  ブランドに対する市場⼼心理理
の分析
•  プロモーションのローカラ
イズとパーソナライズ
•  ウェブサイトの最適化
•  店舗レイアウトの最適化
⾦金金融業界 ⼩小売業界 通信業界 製造業界
医療療業界
電⼒力力、⽯石油
ガス業界
公共部⾨門
•  臨臨床実験でのゲノムデータの
活⽤用
•  患者のバイタルサインの監視
•  再⼊入院率率率の低減
•  医療療研究データの保存
•  薬剤実験協⼒力力者の募集
•  スマートメーターストリー
ム分析
•  油井減少曲線の減速
•  リース⼊入札の最適化
•  コンプライアンスレポート
•  プロアクティブな機器修理理
•  地震画像処理理
•  世論論の分析
•  重要なネットワークの保護
•  不不正や浪浪費の防⽌止
•  インフラ修復復をクラウド
ソースにより報告
•  記録の開⽰示請求の履履⾏行行
データサイエンスは、
これらすべてのユース
ケースにメリットを与
えます。
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
ウェブの巨人は、ビッグデータへのデータサイエンスを適
用し、データ製品のROIを証明した
Amazon: 35%の商品売上は
商品のレコメンデーション
経由
Netflix: 75%のビデオスト
リーミングはレコメン
デーションの成果
広告CTRの予測
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データサイエンスとは反復復的なもの…
可視化、  
完全な理理解
仮定から  
モデル作成
測定/評価
データ    
取得
データの    
クリーニング
質問を    
公式化
配置
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データ
探索索
フィーチャー
エンジニアリング
⽣生データ変更更
データサイエンスとは、様々な知識識を組合せたもの  ...
データサイエンスは、
3つの主要グループ
と、それらをサポート
する機能から成り⽴立立っ
ています。
  データサイエンティス
トは、技術的機能から
分析的機能まで、これ
らすべての知識識に習熟
している必要がありま
す。
信号処理理
OCR
変換
正常化
集計
簡易易統計
データ
モデリング
頻繁なアイテム
セット
異異常検出
クラスタリング
協調フィルタ
回帰
分類
教師あり学習 教師なし学習
報告可視化データ品質
技術的 分析的
次元縮⼩小
機能
選択
情報理理論論
⾃自然⾔言語処理理
(  NLP  )
前処理理
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データサイエンスにおける専門分野
データエンジニア
•  データエンジニアリング(品質、  
ETL  、パイプラインなど…)
•  コンピュータサイエンス
•  プログラミング(Java、  Scala、  
Python  など…)
応⽤用科学者
•  現実世界の問題の解決に取り組む研究
科学者
•  機械学習、⾼高度度統計、応⽤用数学、
NLP、可視化。  
ビジネスアナリスト
•  ビジネスや特定分野の専⾨門知識識
•  SQL、Excel、可視化ツール
ビッグデータエンジニア
•  Hadoop、  PIG、  HIVE、カスケーディン
グ、SOLR  など
•  ⼤大規模データセットに関する統計と機械
学習
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データサイエンスにおける専⾨門分野
データエンジニア
•  データエンジニアリング(品質、 ETL
など…)
•  コンピュータサイエンス
•  コーディング(Java、 Scala、 Python
など…)
応用科学者
•  現実世界の問題の解決に取り組む研究
科学者
•  機械学習、高度統計、応用数学、NLP、
可視化。
ビジネスアナリスト
•  可視化
•  ビジネスや特定分野の専門知識
ビッグデータエンジニア
•  Hadoop、 PIG、 HIVE、カスケーディン
グ、SOLR など
•  大規模データセットに関する統計と機械
学習ユニコーン!
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データサイエンティストのスキルの連続体
役割 機能 得意分野
応用科学者 •  データ内の信号を発見
•  モデルの構築・調整
•  アルゴリズムの選択
•  統計、機械学習
•  テキスト処理、 NLP
•  R、 MATLAB、 SAS、 SQL
•  スクリプティング
•  可視化 / わかりやすい説明
データエンジニア •  製品グレードのデータパイ
プラインの設計と実行
•  ソフトウェアエンジニアリン
グに関する基準の順守
•  データアーキテクチャの設計・実行
•  「生産品質」のコード作成
•  Hadoop、 PIG/HIVE、 Map-Reduce、運用管理
•  Java、 Python、 Perl、 SQL、 C++、
•  NoSQL ( Hbase、 Cassandra、 Mongo )
ソフトウェア  
エンジニア
リサーチ
サイエンティスト
データ
エンジニア
データ
サイエンティスト
応⽤用
科学者
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データサイエンティストのスキルの連続体
ソフトウェア  
エンジニア
リサーチ
サイエンティスト
データ
エンジニア
データ
サイエンティスト
応⽤用
科学者
こうした⼈人材は⼆二⼈人⼀一組で採⽤用する
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
機会学習の概要
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
機械学習とは?
•  機械学習  とは、データから学習し、明⽰示的
なプログラムがなくても作動するコン
ピュータを実現させる科学
•  機械学習とは、データから学習が可能なシ
ステムの構築と研究を指す。
•  機械学習の核となるのは表現と⼀一般化への
取組みであり、システムが未知のデータイ
ンスタンス上で良良好に機能し、未知のイベ
ントを予測できるようになる。
•  機械学習には⾮非常に多様なタスクや、成功
しているアプリケーションがある。  
  
WALL-‐‑‒E  は  700  年年間⼈人間の
ものを収集するという経験を
地球上で積んだ後、感情を持
つことを学んだ機械のこと
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
教師あり学習
•  教師あり学習:トレーニ
ングデータ(機械学習ア
ルゴリズムに対して表現
されるデータ)にはラベ
ルが付けられている。こ
の場合、与えられたラベ
ルに基づく新データの分
類が機械のタスクになる。
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
教師なし学習
教師なし学習:機械ア
ルゴリズムにはトレー
ニングデータが全く与
えられておらず、新
データに関する情報を
発⾒見見しなければならな
い。
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
六六つの機械学習タスク
教師なしのタスク
•  クラスタリング
•  異異常値検出
•  バスケット解析
•  レコメンデーション
  
教師ありのタスク
•  分類
•  回帰
  
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
教師ありの例例:  検索索結果の広告CTR
Rank  =  bid  *  CTR
各広告のCTR  を予測し、
広告の配置を決定
•  CTRの履履歴
•  キーワードマッチ
•  Etc…
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
教師なしの例例:製品の推奨
“嗜好の予測”:
Collaborative  Filtering
似通った“好み”の⼈人間を特定
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
教師あり学習モデルの詳細
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Model
予測
教師あり学習ワークフロー
フィーチャー
の抽出
モデル
トレー
ニング
モデル
⽣生データ
(Train)
ラベル
新規
データ
フィーチャー
の抽出
ラベル
トレーニング
予測
評価
モデル
Feature  Matrix
Feature  Vector
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
クローズアップ:  フィーチャーの抽出
⽣生データ
ID Total$ Age City Target
101 200 25 SF
102 350 35 LA
103 25 15 LA
… … … …
Feature MatrixFeature
Engineering
Raw
Transforms
Signal
Processing
OCR
Geo-spatial
Normalize
Transform/
aggregate
Sample
Dimensionality
reduction
Feature
Selection
NLP
Mutual
Information
TB, PB
フィーチャー
の抽出
MB, GB
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
フィーチャーマトリックスのデータ構造
各行は1つのデータオブジェクト
各列は1つのフィーチャー(あるいは変数)
最後の列は時には特別な意味を持つ
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
サンプル: 売上のトランザクションデータ
Shopper ID TX ID Apple Banana Honey Milk Bread
101 TX 1 4 5 1 1 0
102 TX 2 0 2 0 1 1
103 TX 3 0 0 0 0 2
101 TX 4 1 1 0 0 0
Apple Banana Honey Milk Bread
Price $2 $1 $5 $3 $4
Age City Size of household
101 25 SF 4
102 35 LA 3
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
サンプル: 顧客フィーチャーマトリックス
正しいフィーチャーを決めるタスクは容易ではない
Shopper ID # Tx Total $ Age City
101 10 $200 25 SF
102 15 $350 35 LA
103 2 $25 15 LA
… 25 $5 15 NYC
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
クラスタニング: 自然グループの検出
クラスタ番号
ビジネスのユースケース
-  顧客セグメンテーション
-  ニュース記事の分類
ID Total$ Age City
101 $200 25 SF 2
102 $350 35 LA 2
103 $25 15 LA 1
… … … … 1
1
2
2
2
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
フィーチャーマトリックスはどれくらい⼤大きいのか?
例例:
•  10M  ⾏行行,  100  フィーチャー
•  各フィーチャー=  8  bytes  (double)
•  メモリーの合計  =  ~∼7.5GB
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
クローズアップ:  モデルのトレーニング
モデルの    
トレーニング
トレーニン
グセット
モデル
モデル
の評価
メトリック
l  フィーチャーマトリックスはランダムに“トレーニング(70%)とバリデーション
(30%)セットに分けられる
l  モデルはトレーニングセットを使い作成され、エラー検出はバリデーションセット
により計算される
l  繰り返し処理理またはグリッドサーチは最適なアルゴリズムとパラメーターを選定
•  最適なモデル精度度が得られる
•  過度度な学習を防ぐ
バリデーショ
ンセット
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
分類器のパフォーマンスを評価
•  “confusion  matrix”  の決定
•  計算メトリックス:精密さ、再現率率率、精度度と
特異異性 実際
Yes No
予測
Yes True
positives
False
positives
No False
negatives
True
negatives
Confusion Matrix
confusion  matrixを⽤用いてこれらの数値を計算が可能  
精密さ  =  %  of  positive  predicts  that  are  correct
再現率率率  =  %  of  positive  instances  that  were  predicts  as  posit
F1  スコア  =  a  measure  of  testʼ’s  accuracy,  combining  precisi
精度度=  %  of  correct  classifications
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
レコメンデーション–	
  ハイレベルフロー	
  
フィーチャー抽
出
ALS
ユーザー/商
品 マトリックス
生データ
レコメンデーショ
ン
MySQL /
HBase
ウェブサーバー
Hadoopクラスタ
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopとデータサイエンス
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARN と Data Lake がサイエンティストに進化をも
たらしました
2013  年年秋、  YARN  は、主に単⼀一ワークロードのサイロ化システムであった  Hadoop  を、複
数のワークロードを同時に実⾏行行できるマルチテナントシステムへと進化させました
YARN  が  Data  Lake  という概念念を可能にしたのです
•  データをすべて⽣生のフォーマットで格納する能⼒力力
•  サイロ化されたデータの統合
•  Data  Lake  の「価値」は、データ資産が移⾏行行してくるにつれ⾮非線形的に増加します
•  Hadoop  は、今やストレージと処理理能⼒力力との共有資産といえます…
この進歩により、データサイエンティストは前もって資⾦金金調達⼿手配を⾏行行わなく
ても、アイディアを迅速にプロトタイプ化することが可能になりました
今すぐ、データにも処理理能⼒力力にもアクセス可能
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
新しいデータ
が必要です
やっと収集
が始まった
えっと・・・
それって何か
良良いことなの?
開始 6  ヶ⽉月 9  ヶ⽉月
“Schema  change”  プロジェクト
HDFSのフォルダ
に⼊入れておこう
えっと・・・
それって何か
良良いことなの?
3ヶ⽉月
⾃自分のモデルって
すごく良良いかも!
“Schema  on  read”  はデータ改⾰革を加速
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopは前処理理に最適
結合
正常化
OCR
サンプル
集計
⽣生データ
フィーチャー
マトリックス
NLP
Hadoop  クラスタ
変換
機械学習に⼊入⼒力力
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoop  は前処理理として理理想的
Feature  
Engineering
Raw  
Transforms
Signal  
Processing
OCR
Geo-‐‑‒spatial
Normalize
Transform/
aggregate
Sample
Dimensionalit
y  reduction
Feature  
Selection
NLP
Mutual  
Information
データモデリング
Frequent  
Itemset
Anomaly  
Detection
Clustering
Collaborative  Filter
Regression
Classification
Supervised  
Learning
Unsupervised  
Learning
前処理理
より良良いフィーチャーマトリックス
•  より多くの、かつ新しい機能
•  より多くのインスタンス
•  より多いデータでも⾼高速化
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
データサイエンスツールとHadoop
•  既存のツールの使⽤用:R,  Python  Scikit-‐‑‒learn  or  SASな
ど
•  Mahout:⼀一部のケースにおいては有効(ただし、将来
は…)
•  Spark  ML-‐‑‒Lib:⽐比較的新しいソリューションにも関わらず
推奨
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopによる教師ありモデルのトレーニング
•  通常  “トレーニングセット”  はそれほど⼤大きくはない
•  この場合、通常ハイメモリーノードでのトレーニング
•  既存のツールの使⽤用:  R,  Python  Scikit-‐‑‒learn  or  SAS
•  メモリに収まらない⾮非常に⼤大きなトレーニングセットの場合
•  ⼀一部のケースにおいてはMahout  は有効  (ただし、将来は…)
•  Spark  ML-‐‑‒Libは  ⽐比較的新しいソリューションにも関わらず推奨
•  Hadoopはパラメーターチューニングにおいても有効
•  Grid-‐‑‒search:  モデルのパラメーターの最適化
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopによる教師ありモデルのスコアリング
•  ⼀一つのインスタンスのスコアリングは通常は早い
•  ⼀一部のケースでは、⼤大量量のデータポイントに対して頻繁に
バッチ  リスコアリングが必要(例例:20Mカスタマー)
•  PMML  スコアリングエンジンを使⽤用  (e.g.,  Zementis,  Pattern)
•  Python,  R,  Java,  などによるカスタム実装
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopによる教師なし学習
•  クラスタリング
•  多くのクラスタリングアルゴリズムは、並列列化されている
•  Distributed  K-‐‑‒means  は⼀一般的であり、Spark  ML-‐‑‒Lib  &    Mahout
で利利⽤用が可能
•  Collaborative  Filtering
•  Alternating  Least  Squares  (ALS)  –  ⾮非常に並列列化
•  Mahout,  Spark  ML-‐‑‒Lib,  などにALSが実装
•  商品別あるいは顧客別Collaborative  FilteringがMahoutで利利⽤用可能
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
デプロイの考え⽅方:  HadoopとR
•  Rと関連したパッケージはそれぞれのノー
ドにインストール
•  ユーザーはハイメモリーノードでRを実⾏行行
•  Rstudio  または  Rstudio  サーバー
•  RCloud  
•  Hadoopへのインターフェース
•  RMR:  map-‐‑‒reduce  を  Rから実⾏行行
•  RHDFS:  RからHDFSファイルをアクセス
•  RHIVE:  Rからhive  クエリを実⾏行行
•  RHBase:  RからHbaseにアクセス
•  RODBC
Rstudio, Rcloud
Rhadoop
RHive
R . .
. . .
. . R
YARN
R high-
memory node
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
デプロイの考え⽅方:  Hadoop  と  Python
•  それぞれのノードおよびハイメモリーノー
ドにPythonおよび関連パッケージをイン
ストール
•  ユーザーはPythonをハイメモリーノード
で実⾏行行
•  卓越したUIのIpythonノートブック
•  Hadoopへのインターフェース
•  PyDoop:  PythonからHDFSへのアクセス
•  Hadoop  ストリーミングによるMap-‐‑‒reduce  
ジョブ  
•  PIGからPython  UDFs  を利利⽤用
IPython
Pandas, Scikit-learn
Numpy, Scipy
Matplotlib
PyDoop
Python
Scikit-learn
Pandas
. .
. . .
. .
Python
Scikit-learn
Pandas
YARN
Python high-
memory node
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
デプロイの考え⽅方:  HadoopとSpark
•  ユーザーはEdge  Nodeから直接Spark  (あ
るいは  ML-‐‑‒Lib)  ジョブ  を実⾏行行
•  Scala  API  または  Java  API
•  Python  API  でも良良し
•  SparkはYARN  ジョブとして直接実⾏行行
•  他に⼀一切切インストールする必要なし
Spark
ML-LibEdge node
Spark . .
. . .
. . Spark
YARN
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
まとめ
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopにおけるデータサイエンス
•  データサイエンスはHadoopクラスタの重要機能の1つ
•  データサイエンティストは採⽤用が難しい、正しいスキル
を持つチームを採⽤用
•  HadoopやYARNがデータサイエンスの最適な環境を作
り上げた
•  Hadoopにはデータサイエンスを⾏行行うためのツールがた
くさんある
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Thank You!
Yifeng Jiang – Solutions Engineer

More Related Content

What's hot

HDP Security Overview
HDP Security OverviewHDP Security Overview
HDP Security OverviewYifeng Jiang
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Cloudera Japan
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】NTT DATA OSS Professional Services
 
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...MapR Technologies Japan
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallShinpei Ohtani
 
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向Naoki (Neo) SATO
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeSatoru Ishikawa
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA HadoopセミナーIchiro Fukuda
 
(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandradatastaxjp
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...MapR Technologies Japan
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...DataWorks Summit/Hadoop Summit
 
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR Technologies Japan
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)Hadoop / Spark Conference Japan
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11MapR Technologies Japan
 
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26MapR Technologies Japan
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)NTT DATA OSS Professional Services
 

What's hot (20)

HDP Security Overview
HDP Security OverviewHDP Security Overview
HDP Security Overview
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
 
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
 
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
 
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 FallAmazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
 
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
 
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective DatalakeDevelopers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
 
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
 
(LT)Spark and Cassandra
(LT)Spark and Cassandra(LT)Spark and Cassandra
(LT)Spark and Cassandra
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
 
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
 
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
 
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
 
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 

Viewers also liked

Sparkストリーミング検証
Sparkストリーミング検証Sparkストリーミング検証
Sparkストリーミング検証BrainPad Inc.
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
Hadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライドHadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライドhamaken
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
 
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜Tanaka Yuichi
 
Hadoop with Python
Hadoop with PythonHadoop with Python
Hadoop with PythonDonald Miner
 

Viewers also liked (6)

Sparkストリーミング検証
Sparkストリーミング検証Sparkストリーミング検証
Sparkストリーミング検証
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Hadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライドHadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライド
 
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
 
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
 
Hadoop with Python
Hadoop with PythonHadoop with Python
Hadoop with Python
 

Similar to Data Science on Hadoop

最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworksKimihiko Kitase
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Hortonworks Japan
 
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1オラクルエンジニア通信
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng Jiang
 
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...Insight Technology, Inc.
 
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境Kimihiko Kitase
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展Recruit Technologies
 
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiIoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiYuta Imai
 
DBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixDBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixMasaya Ishikawa
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方Recruit Technologies
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15MapR Technologies Japan
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)NTT DATA OSS Professional Services
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoTreasure Data, Inc.
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...Insight Technology, Inc.
 

Similar to Data Science on Hadoop (20)

最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
 
The real world use of Big Data to change business
The real world use of Big Data to change businessThe real world use of Big Data to change business
The real world use of Big Data to change business
 
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
 
Yifeng hadoop-present-public
Yifeng hadoop-present-publicYifeng hadoop-present-public
Yifeng hadoop-present-public
 
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
 
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4
 
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
 
Hwx勉強会0730
Hwx勉強会0730Hwx勉強会0730
Hwx勉強会0730
 
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFiIoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFi
 
DBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixDBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - Delphix
 
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
 
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
 
Hadoopカンファレンス2013
Hadoopカンファレンス2013Hadoopカンファレンス2013
Hadoopカンファレンス2013
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 TokyoPrestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
 
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
 

More from Yifeng Jiang

Hive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfsHive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfsYifeng Jiang
 
introduction-to-apache-kafka
introduction-to-apache-kafkaintroduction-to-apache-kafka
introduction-to-apache-kafkaYifeng Jiang
 
Hive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big DataHive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big DataYifeng Jiang
 
Introduction to Streaming Analytics Manager
Introduction to Streaming Analytics ManagerIntroduction to Streaming Analytics Manager
Introduction to Streaming Analytics ManagerYifeng Jiang
 
HDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for EveryoneHDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for EveryoneYifeng Jiang
 
Hortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 UpdatesHortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 UpdatesYifeng Jiang
 
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSIntroduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSYifeng Jiang
 
Real-time Analytics in Financial
Real-time Analytics in FinancialReal-time Analytics in Financial
Real-time Analytics in FinancialYifeng Jiang
 
Sub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scaleSub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scaleYifeng Jiang
 
Hive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-publicHive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-publicYifeng Jiang
 
Yifeng spark-final-public
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-publicYifeng Jiang
 
Kinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-diveKinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-diveYifeng Jiang
 
Hive present-and-feature-shanghai
Hive present-and-feature-shanghaiHive present-and-feature-shanghai
Hive present-and-feature-shanghaiYifeng Jiang
 
Hadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise HadoopHadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise HadoopYifeng Jiang
 
Apache Hiveの今とこれから
Apache Hiveの今とこれからApache Hiveの今とこれから
Apache Hiveの今とこれからYifeng Jiang
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Yifeng Jiang
 

More from Yifeng Jiang (19)

Hive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfsHive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfs
 
introduction-to-apache-kafka
introduction-to-apache-kafkaintroduction-to-apache-kafka
introduction-to-apache-kafka
 
Hive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big DataHive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big Data
 
Introduction to Streaming Analytics Manager
Introduction to Streaming Analytics ManagerIntroduction to Streaming Analytics Manager
Introduction to Streaming Analytics Manager
 
HDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for EveryoneHDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for Everyone
 
Hortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 UpdatesHortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 Updates
 
Spark Security
Spark SecuritySpark Security
Spark Security
 
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWSIntroduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWS
 
Real-time Analytics in Financial
Real-time Analytics in FinancialReal-time Analytics in Financial
Real-time Analytics in Financial
 
Nifi workshop
Nifi workshopNifi workshop
Nifi workshop
 
Sub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scaleSub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scale
 
Hive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-publicHive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-public
 
Yifeng spark-final-public
Yifeng spark-final-publicYifeng spark-final-public
Yifeng spark-final-public
 
Kinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-diveKinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-dive
 
Hive present-and-feature-shanghai
Hive present-and-feature-shanghaiHive present-and-feature-shanghai
Hive present-and-feature-shanghai
 
Hadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise HadoopHadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise Hadoop
 
Apache Hiveの今とこれから
Apache Hiveの今とこれからApache Hiveの今とこれから
Apache Hiveの今とこれから
 
HDFS Deep Dive
HDFS Deep DiveHDFS Deep Dive
HDFS Deep Dive
 
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
 

Recently uploaded

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video UnderstandingToru Tamaki
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルCRI Japan, Inc.
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsWSO2
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイスCRI Japan, Inc.
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Gamesatsushi061452
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Hiroshi Tomioka
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptxsn679259
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...Toru Tamaki
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (12)

論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
 
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアルLoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
 
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半        2024/04/26の勉強会で発表されたものです。新人研修 後半        2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
 
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native IntegrationsUtilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
 
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイスLoRaWANスマート距離検出センサー  DS20L  カタログ  LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
 
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
 
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
 
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
 
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
 
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
 

Data Science on Hadoop

  • 1. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopにおけるデータサイエンス Yifeng  Jiang March  10,  2015  
  • 2. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 自己紹介 蒋  逸峰  (Yifeng  Jiang) •  Solutions  Engineer  @  Hortonworks  Japan •  HBase  Book  Author •  ⽇日本に来て10年年経ちました… •  週末の趣味は登⼭山 •  @uprush
  • 3. © Hortonworks Inc. 2011 – 2015. All Rights Reserved アジェンダ •  データサイエンスとは? •  機械学習の概要 •  教師あり学習モデルの詳細 •  Hadoopにおけるデータサイエンス
  • 4. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスとは?
  • 5. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスとは? データの科学的探索索から意味や知⾒見見を抽出することであり、 ソフトウェアシステムを構築し、そのような知⾒見見をビジネス に関連して活⽤用すること ... 発見の技術 ... そしてオペレーションの科学
  • 6. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスの分類 予測をする 予測分析 洞洞察を得る 記述的分析 クラスタニング バスケット解析 異常値検出 分類 回帰 レコメンデーション
  • 7. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスはビジネス・インテリジェンス(BI)の 次の⾃自然なステップ 価値 改良良 抽出 強化 データサイエンス ダッシュボード レポート スコアカード バスケット解析 異異常値検出 クラスタリング レコメンデーション 回帰 分類 Business  Intelligence:  測定  &  カウント;  簡単な分析 Data  Science:  発⾒見見  &  予測;  複雑な分析;  “データ製品” 発⾒見見 予測
  • 8. © Hortonworks Inc. 2011 – 2015. All Rights Reserved なぜデータサイエンスは必要なのか? ¥ •  サプライヤ統合 •  サプライチェーンと物流流 •  組⽴立立ラインの品質保証   •  プロアクティブメンテナンス •  クラウドソースの品質保証 •  新規⼝口座のリスク審査 •  不不正防⽌止 •  取引リスク •  預⾦金金スプレッドの最⼤大化 •  保険引受 •  ローン処理理の⾼高速化 •  通話詳細レコード(CDR) •  インフラ投資 •  次に購⼊入する製品(NPTB) •  リアルタイムでの帯域幅割 り当て •  新製品開発 •  顧客の  360  度度ビュー •  ブランドに対する市場⼼心理理 の分析 •  プロモーションのローカラ イズとパーソナライズ •  ウェブサイトの最適化 •  店舗レイアウトの最適化 ⾦金金融業界 ⼩小売業界 通信業界 製造業界 医療療業界 電⼒力力、⽯石油 ガス業界 公共部⾨門 •  臨臨床実験でのゲノムデータの 活⽤用 •  患者のバイタルサインの監視 •  再⼊入院率率率の低減 •  医療療研究データの保存 •  薬剤実験協⼒力力者の募集 •  スマートメーターストリー ム分析 •  油井減少曲線の減速 •  リース⼊入札の最適化 •  コンプライアンスレポート •  プロアクティブな機器修理理 •  地震画像処理理 •  世論論の分析 •  重要なネットワークの保護 •  不不正や浪浪費の防⽌止 •  インフラ修復復をクラウド ソースにより報告 •  記録の開⽰示請求の履履⾏行行 データサイエンスは、 これらすべてのユース ケースにメリットを与 えます。
  • 9. © Hortonworks Inc. 2011 – 2015. All Rights Reserved ウェブの巨人は、ビッグデータへのデータサイエンスを適 用し、データ製品のROIを証明した Amazon: 35%の商品売上は 商品のレコメンデーション 経由 Netflix: 75%のビデオスト リーミングはレコメン デーションの成果 広告CTRの予測
  • 10. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスとは反復復的なもの… 可視化、   完全な理理解 仮定から   モデル作成 測定/評価 データ     取得 データの     クリーニング 質問を     公式化 配置
  • 11. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データ 探索索 フィーチャー エンジニアリング ⽣生データ変更更 データサイエンスとは、様々な知識識を組合せたもの  ... データサイエンスは、 3つの主要グループ と、それらをサポート する機能から成り⽴立立っ ています。  データサイエンティス トは、技術的機能から 分析的機能まで、これ らすべての知識識に習熟 している必要がありま す。 信号処理理 OCR 変換 正常化 集計 簡易易統計 データ モデリング 頻繁なアイテム セット 異異常検出 クラスタリング 協調フィルタ 回帰 分類 教師あり学習 教師なし学習 報告可視化データ品質 技術的 分析的 次元縮⼩小 機能 選択 情報理理論論 ⾃自然⾔言語処理理 (  NLP  ) 前処理理
  • 12. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスにおける専門分野 データエンジニア •  データエンジニアリング(品質、   ETL  、パイプラインなど…) •  コンピュータサイエンス •  プログラミング(Java、  Scala、   Python  など…) 応⽤用科学者 •  現実世界の問題の解決に取り組む研究 科学者 •  機械学習、⾼高度度統計、応⽤用数学、 NLP、可視化。   ビジネスアナリスト •  ビジネスや特定分野の専⾨門知識識 •  SQL、Excel、可視化ツール ビッグデータエンジニア •  Hadoop、  PIG、  HIVE、カスケーディン グ、SOLR  など •  ⼤大規模データセットに関する統計と機械 学習
  • 13. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスにおける専⾨門分野 データエンジニア •  データエンジニアリング(品質、 ETL など…) •  コンピュータサイエンス •  コーディング(Java、 Scala、 Python など…) 応用科学者 •  現実世界の問題の解決に取り組む研究 科学者 •  機械学習、高度統計、応用数学、NLP、 可視化。 ビジネスアナリスト •  可視化 •  ビジネスや特定分野の専門知識 ビッグデータエンジニア •  Hadoop、 PIG、 HIVE、カスケーディン グ、SOLR など •  大規模データセットに関する統計と機械 学習ユニコーン!
  • 14. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンティストのスキルの連続体 役割 機能 得意分野 応用科学者 •  データ内の信号を発見 •  モデルの構築・調整 •  アルゴリズムの選択 •  統計、機械学習 •  テキスト処理、 NLP •  R、 MATLAB、 SAS、 SQL •  スクリプティング •  可視化 / わかりやすい説明 データエンジニア •  製品グレードのデータパイ プラインの設計と実行 •  ソフトウェアエンジニアリン グに関する基準の順守 •  データアーキテクチャの設計・実行 •  「生産品質」のコード作成 •  Hadoop、 PIG/HIVE、 Map-Reduce、運用管理 •  Java、 Python、 Perl、 SQL、 C++、 •  NoSQL ( Hbase、 Cassandra、 Mongo ) ソフトウェア   エンジニア リサーチ サイエンティスト データ エンジニア データ サイエンティスト 応⽤用 科学者
  • 15. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンティストのスキルの連続体 ソフトウェア   エンジニア リサーチ サイエンティスト データ エンジニア データ サイエンティスト 応⽤用 科学者 こうした⼈人材は⼆二⼈人⼀一組で採⽤用する
  • 16. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 機会学習の概要
  • 17. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 機械学習とは? •  機械学習  とは、データから学習し、明⽰示的 なプログラムがなくても作動するコン ピュータを実現させる科学 •  機械学習とは、データから学習が可能なシ ステムの構築と研究を指す。 •  機械学習の核となるのは表現と⼀一般化への 取組みであり、システムが未知のデータイ ンスタンス上で良良好に機能し、未知のイベ ントを予測できるようになる。 •  機械学習には⾮非常に多様なタスクや、成功 しているアプリケーションがある。     WALL-‐‑‒E  は  700  年年間⼈人間の ものを収集するという経験を 地球上で積んだ後、感情を持 つことを学んだ機械のこと
  • 18. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 教師あり学習 •  教師あり学習:トレーニ ングデータ(機械学習ア ルゴリズムに対して表現 されるデータ)にはラベ ルが付けられている。こ の場合、与えられたラベ ルに基づく新データの分 類が機械のタスクになる。
  • 19. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 教師なし学習 教師なし学習:機械ア ルゴリズムにはトレー ニングデータが全く与 えられておらず、新 データに関する情報を 発⾒見見しなければならな い。
  • 20. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 六六つの機械学習タスク 教師なしのタスク •  クラスタリング •  異異常値検出 •  バスケット解析 •  レコメンデーション   教師ありのタスク •  分類 •  回帰  
  • 21. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 教師ありの例例:  検索索結果の広告CTR Rank  =  bid  *  CTR 各広告のCTR  を予測し、 広告の配置を決定 •  CTRの履履歴 •  キーワードマッチ •  Etc…
  • 22. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 教師なしの例例:製品の推奨 “嗜好の予測”: Collaborative  Filtering 似通った“好み”の⼈人間を特定
  • 23. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 教師あり学習モデルの詳細
  • 24. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Model 予測 教師あり学習ワークフロー フィーチャー の抽出 モデル トレー ニング モデル ⽣生データ (Train) ラベル 新規 データ フィーチャー の抽出 ラベル トレーニング 予測 評価 モデル Feature  Matrix Feature  Vector
  • 25. © Hortonworks Inc. 2011 – 2015. All Rights Reserved クローズアップ:  フィーチャーの抽出 ⽣生データ ID Total$ Age City Target 101 200 25 SF 102 350 35 LA 103 25 15 LA … … … … Feature MatrixFeature Engineering Raw Transforms Signal Processing OCR Geo-spatial Normalize Transform/ aggregate Sample Dimensionality reduction Feature Selection NLP Mutual Information TB, PB フィーチャー の抽出 MB, GB
  • 26. © Hortonworks Inc. 2011 – 2015. All Rights Reserved フィーチャーマトリックスのデータ構造 各行は1つのデータオブジェクト 各列は1つのフィーチャー(あるいは変数) 最後の列は時には特別な意味を持つ
  • 27. © Hortonworks Inc. 2011 – 2015. All Rights Reserved サンプル: 売上のトランザクションデータ Shopper ID TX ID Apple Banana Honey Milk Bread 101 TX 1 4 5 1 1 0 102 TX 2 0 2 0 1 1 103 TX 3 0 0 0 0 2 101 TX 4 1 1 0 0 0 Apple Banana Honey Milk Bread Price $2 $1 $5 $3 $4 Age City Size of household 101 25 SF 4 102 35 LA 3
  • 28. © Hortonworks Inc. 2011 – 2015. All Rights Reserved サンプル: 顧客フィーチャーマトリックス 正しいフィーチャーを決めるタスクは容易ではない Shopper ID # Tx Total $ Age City 101 10 $200 25 SF 102 15 $350 35 LA 103 2 $25 15 LA … 25 $5 15 NYC
  • 29. © Hortonworks Inc. 2011 – 2015. All Rights Reserved クラスタニング: 自然グループの検出 クラスタ番号 ビジネスのユースケース -  顧客セグメンテーション -  ニュース記事の分類 ID Total$ Age City 101 $200 25 SF 2 102 $350 35 LA 2 103 $25 15 LA 1 … … … … 1 1 2 2 2
  • 30. © Hortonworks Inc. 2011 – 2015. All Rights Reserved フィーチャーマトリックスはどれくらい⼤大きいのか? 例例: •  10M  ⾏行行,  100  フィーチャー •  各フィーチャー=  8  bytes  (double) •  メモリーの合計  =  ~∼7.5GB
  • 31. © Hortonworks Inc. 2011 – 2015. All Rights Reserved クローズアップ:  モデルのトレーニング モデルの     トレーニング トレーニン グセット モデル モデル の評価 メトリック l  フィーチャーマトリックスはランダムに“トレーニング(70%)とバリデーション (30%)セットに分けられる l  モデルはトレーニングセットを使い作成され、エラー検出はバリデーションセット により計算される l  繰り返し処理理またはグリッドサーチは最適なアルゴリズムとパラメーターを選定 •  最適なモデル精度度が得られる •  過度度な学習を防ぐ バリデーショ ンセット
  • 32. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 分類器のパフォーマンスを評価 •  “confusion  matrix”  の決定 •  計算メトリックス:精密さ、再現率率率、精度度と 特異異性 実際 Yes No 予測 Yes True positives False positives No False negatives True negatives Confusion Matrix confusion  matrixを⽤用いてこれらの数値を計算が可能   精密さ  =  %  of  positive  predicts  that  are  correct 再現率率率  =  %  of  positive  instances  that  were  predicts  as  posit F1  スコア  =  a  measure  of  testʼ’s  accuracy,  combining  precisi 精度度=  %  of  correct  classifications
  • 33. © Hortonworks Inc. 2011 – 2015. All Rights Reserved レコメンデーション–  ハイレベルフロー   フィーチャー抽 出 ALS ユーザー/商 品 マトリックス 生データ レコメンデーショ ン MySQL / HBase ウェブサーバー Hadoopクラスタ
  • 34. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopとデータサイエンス
  • 35. © Hortonworks Inc. 2011 – 2015. All Rights Reserved YARN と Data Lake がサイエンティストに進化をも たらしました 2013  年年秋、  YARN  は、主に単⼀一ワークロードのサイロ化システムであった  Hadoop  を、複 数のワークロードを同時に実⾏行行できるマルチテナントシステムへと進化させました YARN  が  Data  Lake  という概念念を可能にしたのです •  データをすべて⽣生のフォーマットで格納する能⼒力力 •  サイロ化されたデータの統合 •  Data  Lake  の「価値」は、データ資産が移⾏行行してくるにつれ⾮非線形的に増加します •  Hadoop  は、今やストレージと処理理能⼒力力との共有資産といえます… この進歩により、データサイエンティストは前もって資⾦金金調達⼿手配を⾏行行わなく ても、アイディアを迅速にプロトタイプ化することが可能になりました 今すぐ、データにも処理理能⼒力力にもアクセス可能
  • 36. © Hortonworks Inc. 2011 – 2015. All Rights Reserved 新しいデータ が必要です やっと収集 が始まった えっと・・・ それって何か 良良いことなの? 開始 6  ヶ⽉月 9  ヶ⽉月 “Schema  change”  プロジェクト HDFSのフォルダ に⼊入れておこう えっと・・・ それって何か 良良いことなの? 3ヶ⽉月 ⾃自分のモデルって すごく良良いかも! “Schema  on  read”  はデータ改⾰革を加速
  • 37. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopは前処理理に最適 結合 正常化 OCR サンプル 集計 ⽣生データ フィーチャー マトリックス NLP Hadoop  クラスタ 変換 機械学習に⼊入⼒力力
  • 38. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoop  は前処理理として理理想的 Feature   Engineering Raw   Transforms Signal   Processing OCR Geo-‐‑‒spatial Normalize Transform/ aggregate Sample Dimensionalit y  reduction Feature   Selection NLP Mutual   Information データモデリング Frequent   Itemset Anomaly   Detection Clustering Collaborative  Filter Regression Classification Supervised   Learning Unsupervised   Learning 前処理理 より良良いフィーチャーマトリックス •  より多くの、かつ新しい機能 •  より多くのインスタンス •  より多いデータでも⾼高速化
  • 39. © Hortonworks Inc. 2011 – 2015. All Rights Reserved データサイエンスツールとHadoop •  既存のツールの使⽤用:R,  Python  Scikit-‐‑‒learn  or  SASな ど •  Mahout:⼀一部のケースにおいては有効(ただし、将来 は…) •  Spark  ML-‐‑‒Lib:⽐比較的新しいソリューションにも関わらず 推奨
  • 40. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopによる教師ありモデルのトレーニング •  通常  “トレーニングセット”  はそれほど⼤大きくはない •  この場合、通常ハイメモリーノードでのトレーニング •  既存のツールの使⽤用:  R,  Python  Scikit-‐‑‒learn  or  SAS •  メモリに収まらない⾮非常に⼤大きなトレーニングセットの場合 •  ⼀一部のケースにおいてはMahout  は有効  (ただし、将来は…) •  Spark  ML-‐‑‒Libは  ⽐比較的新しいソリューションにも関わらず推奨 •  Hadoopはパラメーターチューニングにおいても有効 •  Grid-‐‑‒search:  モデルのパラメーターの最適化
  • 41. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopによる教師ありモデルのスコアリング •  ⼀一つのインスタンスのスコアリングは通常は早い •  ⼀一部のケースでは、⼤大量量のデータポイントに対して頻繁に バッチ  リスコアリングが必要(例例:20Mカスタマー) •  PMML  スコアリングエンジンを使⽤用  (e.g.,  Zementis,  Pattern) •  Python,  R,  Java,  などによるカスタム実装
  • 42. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopによる教師なし学習 •  クラスタリング •  多くのクラスタリングアルゴリズムは、並列列化されている •  Distributed  K-‐‑‒means  は⼀一般的であり、Spark  ML-‐‑‒Lib  &    Mahout で利利⽤用が可能 •  Collaborative  Filtering •  Alternating  Least  Squares  (ALS)  –  ⾮非常に並列列化 •  Mahout,  Spark  ML-‐‑‒Lib,  などにALSが実装 •  商品別あるいは顧客別Collaborative  FilteringがMahoutで利利⽤用可能
  • 43. © Hortonworks Inc. 2011 – 2015. All Rights Reserved デプロイの考え⽅方:  HadoopとR •  Rと関連したパッケージはそれぞれのノー ドにインストール •  ユーザーはハイメモリーノードでRを実⾏行行 •  Rstudio  または  Rstudio  サーバー •  RCloud   •  Hadoopへのインターフェース •  RMR:  map-‐‑‒reduce  を  Rから実⾏行行 •  RHDFS:  RからHDFSファイルをアクセス •  RHIVE:  Rからhive  クエリを実⾏行行 •  RHBase:  RからHbaseにアクセス •  RODBC Rstudio, Rcloud Rhadoop RHive R . . . . . . . R YARN R high- memory node
  • 44. © Hortonworks Inc. 2011 – 2015. All Rights Reserved デプロイの考え⽅方:  Hadoop  と  Python •  それぞれのノードおよびハイメモリーノー ドにPythonおよび関連パッケージをイン ストール •  ユーザーはPythonをハイメモリーノード で実⾏行行 •  卓越したUIのIpythonノートブック •  Hadoopへのインターフェース •  PyDoop:  PythonからHDFSへのアクセス •  Hadoop  ストリーミングによるMap-‐‑‒reduce   ジョブ   •  PIGからPython  UDFs  を利利⽤用 IPython Pandas, Scikit-learn Numpy, Scipy Matplotlib PyDoop Python Scikit-learn Pandas . . . . . . . Python Scikit-learn Pandas YARN Python high- memory node
  • 45. © Hortonworks Inc. 2011 – 2015. All Rights Reserved デプロイの考え⽅方:  HadoopとSpark •  ユーザーはEdge  Nodeから直接Spark  (あ るいは  ML-‐‑‒Lib)  ジョブ  を実⾏行行 •  Scala  API  または  Java  API •  Python  API  でも良良し •  SparkはYARN  ジョブとして直接実⾏行行 •  他に⼀一切切インストールする必要なし Spark ML-LibEdge node Spark . . . . . . . Spark YARN
  • 46. © Hortonworks Inc. 2011 – 2015. All Rights Reserved まとめ
  • 47. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopにおけるデータサイエンス •  データサイエンスはHadoopクラスタの重要機能の1つ •  データサイエンティストは採⽤用が難しい、正しいスキル を持つチームを採⽤用 •  HadoopやYARNがデータサイエンスの最適な環境を作 り上げた •  Hadoopにはデータサイエンスを⾏行行うためのツールがた くさんある
  • 48. © Hortonworks Inc. 2011 – 2015. All Rights Reserved Thank You! Yifeng Jiang – Solutions Engineer