Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Cloudera Japan
PDF, PPTX
19,536 views
大規模データに対するデータサイエンスの進め方 #CWT2016
Cloudera World Tokyo 2016 有賀発表 データサイエンスを含めたチームづくりと、機械学習を活かしたプロダクトの作り方について話しました。
Technology
◦
Related topics:
Data Engineering
•
Data Science Insights
•
Read more
51
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 40
2
/ 40
3
/ 40
4
/ 40
5
/ 40
6
/ 40
7
/ 40
8
/ 40
9
/ 40
10
/ 40
11
/ 40
12
/ 40
13
/ 40
14
/ 40
15
/ 40
16
/ 40
17
/ 40
18
/ 40
19
/ 40
20
/ 40
21
/ 40
22
/ 40
23
/ 40
24
/ 40
25
/ 40
26
/ 40
27
/ 40
28
/ 40
29
/ 40
30
/ 40
31
/ 40
32
/ 40
33
/ 40
34
/ 40
35
/ 40
36
/ 40
37
/ 40
38
/ 40
39
/ 40
40
/ 40
More Related Content
PDF
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
by
Cloudera Japan
PDF
#cwt2016 Apache Kudu 構成とテーブル設計
by
Cloudera Japan
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
by
Cloudera Japan
PDF
HBase Across the World #LINE_DM
by
Cloudera Japan
PDF
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
by
Cloudera Japan
PDF
Cloud Native Hadoop #cwt2016
by
Cloudera Japan
PDF
Apache Impalaパフォーマンスチューニング #dbts2018
by
Cloudera Japan
PDF
Cloudera in the Cloud #CWT2017
by
Cloudera Japan
Cloudera Data Science WorkbenchとPySparkで 好きなPythonライブラリを 分散で使う #cadeda
by
Cloudera Japan
#cwt2016 Apache Kudu 構成とテーブル設計
by
Cloudera Japan
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
by
Cloudera Japan
HBase Across the World #LINE_DM
by
Cloudera Japan
#cwt2016 Cloudera Managerを用いた Hadoop のトラブルシューティング
by
Cloudera Japan
Cloud Native Hadoop #cwt2016
by
Cloudera Japan
Apache Impalaパフォーマンスチューニング #dbts2018
by
Cloudera Japan
Cloudera in the Cloud #CWT2017
by
Cloudera Japan
What's hot
PDF
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
by
Cloudera Japan
PDF
Apache Hadoop YARNとマルチテナントにおけるリソース管理
by
Cloudera Japan
PDF
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
by
Cloudera Japan
PDF
HBase活用事例 #hbase_ca
by
Cloudera Japan
PDF
Apache Kuduを使った分析システムの裏側
by
Cloudera Japan
PDF
Troubleshooting Using Cloudera Manager #cwt2015
by
Cloudera Japan
PPTX
機械学習の定番プラットフォームSparkの紹介
by
Cloudera Japan
PDF
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
by
Cloudera Japan
PPTX
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
by
Cloudera Japan
PDF
HBase Meetup Tokyo Summer 2015 #hbasejp
by
Cloudera Japan
PDF
エンタープライズデータハブ活用の落とし穴 2015 08-27
by
Cloudera Japan
PDF
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
by
Cloudera Japan
PPTX
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
by
Cloudera Japan
PDF
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
by
Cloudera Japan
PPTX
基調講演: 「データエコシステムへの挑戦」 #cwt2015
by
Cloudera Japan
PDF
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
by
Cloudera Japan
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
by
Cloudera Japan
PPTX
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
by
Takahiro Moteki
PDF
Impalaチューニングポイントベストプラクティス
by
Yahoo!デベロッパーネットワーク
PDF
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
by
Noritaka Sekiyama
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
by
Cloudera Japan
Apache Hadoop YARNとマルチテナントにおけるリソース管理
by
Cloudera Japan
基礎から学ぶ超並列SQLエンジンImpala #cwt2015
by
Cloudera Japan
HBase活用事例 #hbase_ca
by
Cloudera Japan
Apache Kuduを使った分析システムの裏側
by
Cloudera Japan
Troubleshooting Using Cloudera Manager #cwt2015
by
Cloudera Japan
機械学習の定番プラットフォームSparkの紹介
by
Cloudera Japan
Hadoopビッグデータ基盤の歴史を振り返る #cwt2015
by
Cloudera Japan
G-Tech2015 Hadoop/Sparkを中核としたビッグデータ基盤_20151006
by
Cloudera Japan
HBase Meetup Tokyo Summer 2015 #hbasejp
by
Cloudera Japan
エンタープライズデータハブ活用の落とし穴 2015 08-27
by
Cloudera Japan
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
by
Cloudera Japan
Clouderaが提供するエンタープライズ向け運用、データ管理ツールの使い方 #CW2017
by
Cloudera Japan
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
by
Cloudera Japan
基調講演: 「データエコシステムへの挑戦」 #cwt2015
by
Cloudera Japan
Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS
by
Cloudera Japan
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
by
Cloudera Japan
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
by
Takahiro Moteki
Impalaチューニングポイントベストプラクティス
by
Yahoo!デベロッパーネットワーク
Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ (Hadoop / Spark Conference Japan 2019)
by
Noritaka Sekiyama
Viewers also liked
PDF
Linux Kernel Security Overview - KCA 2009
by
James Morris
PDF
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
by
Cloudera Japan
PDF
Re:dash Use Cases at iPROS
by
Jumpei Yokota
PDF
re:dash is awesome
by
Hiroshi Toyama
PDF
これでBigQueryをドヤ顔で語れる!BigQueryの基本
by
Tomohiro Shinden
PDF
並行処理初心者のためのAkka入門
by
Yoshimura Soichiro
PDF
BigQueryを始めてみよう - Google Analytics データを活用する
by
Google Cloud Platform - Japan
PDF
Business Innovation cases driven by AI and BigData technologies
by
DataWorks Summit/Hadoop Summit
PPTX
Case Study: OLAP usability on Spark and Hadoop
by
DataWorks Summit/Hadoop Summit
PPTX
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
by
Makoto SHIMURA
PPTX
SEGA : Growth hacking by Spark ML for Mobile games
by
DataWorks Summit/Hadoop Summit
PDF
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
by
Yahoo!デベロッパーネットワーク
PDF
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
by
Tokoroten Nakayama
PDF
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
by
Nagato Kasaki
PDF
Hadoop’s Impact on Recruit Company
by
Recruit Technologies
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
PDF
Top 5 mistakes when writing Spark applications
by
hadooparchbook
PDF
Amebaにおけるレコメンデーションシステムの紹介
by
cyberagent
Linux Kernel Security Overview - KCA 2009
by
James Morris
クラウド上でHadoopを構築できる Cloudera Director 2.0 の紹介 #dogenzakalt
by
Cloudera Japan
Re:dash Use Cases at iPROS
by
Jumpei Yokota
re:dash is awesome
by
Hiroshi Toyama
これでBigQueryをドヤ顔で語れる!BigQueryの基本
by
Tomohiro Shinden
並行処理初心者のためのAkka入門
by
Yoshimura Soichiro
BigQueryを始めてみよう - Google Analytics データを活用する
by
Google Cloud Platform - Japan
Business Innovation cases driven by AI and BigData technologies
by
DataWorks Summit/Hadoop Summit
Case Study: OLAP usability on Spark and Hadoop
by
DataWorks Summit/Hadoop Summit
データドリブン企業におけるHadoop基盤とETL -niconicoでの実践例-
by
Makoto SHIMURA
SEGA : Growth hacking by Spark ML for Mobile games
by
DataWorks Summit/Hadoop Summit
1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話
by
Yahoo!デベロッパーネットワーク
データ分析グループの組織編制とその課題 マーケティングにおけるKPI設計の失敗例 ABテストの活用と、機械学習の導入 #CWT2016
by
Tokoroten Nakayama
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
by
Nagato Kasaki
Hadoop’s Impact on Recruit Company
by
Recruit Technologies
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
Top 5 mistakes when writing Spark applications
by
hadooparchbook
Amebaにおけるレコメンデーションシステムの紹介
by
cyberagent
Similar to 大規模データに対するデータサイエンスの進め方 #CWT2016
PDF
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送
by
Google Cloud Platform - Japan
PDF
機械学習CROSS 前半資料
by
Shohei Hido
PPTX
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
by
Shunsuke Nakamura
PPTX
1028 TECH & BRIDGE MEETING
by
健司 亀本
PDF
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
by
Preferred Networks
PPTX
AIシステムの要求とプロジェクトマネジメント-前半:機械学習工学概論
by
Nobukazu Yoshioka
PDF
Data Science on Hadoop
by
Yifeng Jiang
PPTX
東北大学AIE - 機械学習中級編とAzure紹介
by
Daiyu Hatakeyama
PDF
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
by
Shunsuke Nakamura
PDF
第1回 Jubatusハンズオン
by
JubatusOfficial
PDF
第1回 Jubatusハンズオン
by
Yuya Unno
PPTX
AIをあなたのツール化するための第一歩
by
Daiyu Hatakeyama
PPTX
[輪講] 第1章
by
Takenobu Sasatani
PPTX
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
by
Daiyu Hatakeyama
PDF
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
by
Preferred Networks
PPTX
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
by
Shunsuke Nakamura
PPTX
機械学習の基礎
by
Ken Kumagai
PPTX
MLaPP輪講 Chapter 1
by
ryuhmd
PDF
Machine learning CI/CD with OSS
by
yusuke shibui
PPTX
Nttr study 20130206_share
by
Noriyuki Futatsugi
[Cloud OnAir] 機械学習はこうやる!準備と実際のプロセスをお見せします。 (LIVE) 2018年5月24日 放送
by
Google Cloud Platform - Japan
機械学習CROSS 前半資料
by
Shohei Hido
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで Vm 1
by
Shunsuke Nakamura
1028 TECH & BRIDGE MEETING
by
健司 亀本
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
by
Preferred Networks
AIシステムの要求とプロジェクトマネジメント-前半:機械学習工学概論
by
Nobukazu Yoshioka
Data Science on Hadoop
by
Yifeng Jiang
東北大学AIE - 機械学習中級編とAzure紹介
by
Daiyu Hatakeyama
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V k-1
by
Shunsuke Nakamura
第1回 Jubatusハンズオン
by
JubatusOfficial
第1回 Jubatusハンズオン
by
Yuya Unno
AIをあなたのツール化するための第一歩
by
Daiyu Hatakeyama
[輪講] 第1章
by
Takenobu Sasatani
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
by
Daiyu Hatakeyama
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
by
Preferred Networks
データサイエンティストに聞く!今更聞けない機械学習の基礎から応用まで V e-1
by
Shunsuke Nakamura
機械学習の基礎
by
Ken Kumagai
MLaPP輪講 Chapter 1
by
ryuhmd
Machine learning CI/CD with OSS
by
yusuke shibui
Nttr study 20130206_share
by
Noriyuki Futatsugi
More from Cloudera Japan
PPTX
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
by
Cloudera Japan
PPTX
HDFS Supportaiblity Improvements
by
Cloudera Japan
PDF
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
by
Cloudera Japan
PDF
Cloudera のサポートエンジニアリング #supennight
by
Cloudera Japan
PDF
Train, predict, serve: How to go into production your machine learning model
by
Cloudera Japan
PDF
先行事例から学ぶ IoT / ビッグデータの始め方
by
Cloudera Japan
PDF
How to go into production your machine learning models? #CWT2017
by
Cloudera Japan
PDF
Apache Kudu - Updatable Analytical Storage #rakutentech
by
Cloudera Japan
PPTX
Hue 4.0 / Hue Meetup Tokyo #huejp
by
Cloudera Japan
PDF
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
by
Cloudera Japan
PDF
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
by
Cloudera Japan
PPTX
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
by
Cloudera Japan
PDF
基調講演: 「パーペイシブ分析を目指して」#cwt2015
by
Cloudera Japan
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
by
Cloudera Japan
HDFS Supportaiblity Improvements
by
Cloudera Japan
分散DB Apache KuduのアーキテクチャDBの性能と一貫性を両立させる仕組み「HybridTime」とは
by
Cloudera Japan
Cloudera のサポートエンジニアリング #supennight
by
Cloudera Japan
Train, predict, serve: How to go into production your machine learning model
by
Cloudera Japan
先行事例から学ぶ IoT / ビッグデータの始め方
by
Cloudera Japan
How to go into production your machine learning models? #CWT2017
by
Cloudera Japan
Apache Kudu - Updatable Analytical Storage #rakutentech
by
Cloudera Japan
Hue 4.0 / Hue Meetup Tokyo #huejp
by
Cloudera Japan
Cloudera + MicrosoftでHadoopするのがイイらしい。 #CWT2016
by
Cloudera Japan
PCIコンプライアンスに向けたビジネス指針〜MasterCardの事例〜 #cwt2015
by
Cloudera Japan
基調講演:「ビッグデータのセキュリティとガバナンス要件」 #cwt2015
by
Cloudera Japan
基調講演: 「パーペイシブ分析を目指して」#cwt2015
by
Cloudera Japan
大規模データに対するデータサイエンスの進め方 #CWT2016
1.
1© Cloudera, Inc.
All rights reserved. ⼤規模データに対する データサイエンスの進め⽅ 有賀康顕, Cloudera株式会社
2.
2© Cloudera, Inc.
All rights reserved. ⾃⼰紹介 • 有賀 康顕(ありが みちあき) • フィールドデータサイエンティスト • お客様がデータを活⽤できるように⼀緒に議論するのが主な仕事 • メーカーの研究所で⾃然⾔語処理/機械学習の研究開発の後、 クックパッドで機械学習を活⽤したプロダクト開発を⾏ってきた • Ruby / Julia / Machine Learning Casual Talks 等コミュニティも運営 • 🎤 podcaster of rubyist.club email: ariga@cloudera.com chezou
3.
3© Cloudera, Inc.
All rights reserved. データの活⽤を進めていくには
4.
4© Cloudera, Inc.
All rights reserved. 「データの⺠主化」が進んでいる • データを⼀箇所に集めることで、データの活⽤が進む • http://chezou.hatenablog.com/entry/2016/05/05/222046 • エンジニアだけでなく、Webディレクターの⼈たちもSQLを使って、 プロダクト改善のための指標を考え、計測をしはじめた • 安価な⼤規模分析DBやRe:dashなど可視化ツールも⼀役買っている • SQLやBIツールを⽤いて、誰もが⾃ら指標を考え、計測する世界へ • プロダクトに対して、打てる施策のアプローチの幅が広がる
5.
5© Cloudera, Inc.
All rights reserved. データの⺠主化に⼤事なこと • 数秒〜数⼗秒で対話的に分析ができる • 誰でもクエリを⾃由に試せる • どこにどんなデータがあるかがわかる • 出来たこと、得られた知⾒をシェアできる • データの権限を気にしない • 気軽に相談できる仲間がいる → Apache Impala (incubating) → Hue → Cloudera Navigator → Hue → Apache Sentry / RecordService (beta) → あなたがインフルエンサーに!
6.
6© Cloudera, Inc.
All rights reserved. 上司に 「機械学習でいい感じの成果を」 と⾔われたら
7.
7© Cloudera, Inc.
All rights reserved. まず「データの⺠主化を進めま しょうと」と答えましょう データがなければ何も始まりません
8.
8© Cloudera, Inc.
All rights reserved. データサイエンティストがいれば いい感じに解決してくれる? いえいえ、魔法の箱ではありません
9.
9© Cloudera, Inc.
All rights reserved. Source: Drew Conway, “The Data Science Venn Diagram” 伝統的なデータサイエンスのベン図
10.
10© Cloudera, Inc.
All rights reserved. 「データサイエンティストは 50〜80%の時間をデータ収集と 前処理に費やしている」 NY Times, 2014 http://nyti.ms/1t8IzfE
11.
11© Cloudera, Inc.
All rights reserved. データエンジニアリングとデータサイエンス https://medium.com/@KevinSchmidtBiz/b68d201364bc
12.
12© Cloudera, Inc.
All rights reserved. データエンジニアリングとデータサイエンス • データエンジニア • ETLなどのデータ準備も含めた⼤規模データ分析基盤の構築を⾏う • データサイエンティスト • 統計や機械学習を中⼼とし、集めた⼤規模データから価値を⽣み出す 分担して更に加速へとつなげる
13.
13© Cloudera, Inc.
All rights reserved. データサイエンスのワークフローの例 Metadata Management Ingest Processing Developer Tools: IDEs, Notebooks, SCM Operations Tools: Scheduling, Workflow, Publishing Data Management Exploration / Model Development (Feature Engineering, Training, Testing) Production / Model Deployment (Scoring and Serving) Feature Engineering Model Training & Testing Visualization Production Feature Generation Production Modeling Batch Scoring Online Scoring Model Quality & Performance Experiments Serving Storage User: Data Engineer User: Data Scientist User: Data Engineer / Application Developer
14.
14© Cloudera, Inc.
All rights reserved. Hadoop上でのデータサイエンス プログラミング⾔語 データ エンジニアリング 予測モデル開発 スコアリング・ サービング SAS SAS/ACCESS SAS HPA/VA N/A R Desktop Only (dplyr) Desktop Only (various) H2O N/A Python Desktop (pandas) or PySpark Desktop (scikit-learn) or PySpark N/A Scala/Java Spark Spark MLlib Impala/Hive, Solr, HBase, Spark Streaming, …
15.
15© Cloudera, Inc.
All rights reserved. データサイエンスのワークフローの例 Metadata Management Ingest Processing Developer Tools: IDEs, Notebooks, SCM Operations Tools: Scheduling, Workflow, Publishing Data Management Exploration / Model Development (Feature Engineering, Training, Testing) Production / Model Deployment (Scoring and Serving) Feature Engineering Model Training & Testing Visualization Production Feature Generation Production Modeling Batch Scoring Online Scoring Model Quality & Performance Experiments Serving Storage User: Data Engineer User: Data Scientist User: Data Engineer / Application Developer HBase Spark Streaming Impala/ Spark MLlibFlume/ Kafka Hive/ Spark Spark MLlib HDFS / Kudu / HBase
16.
16© Cloudera, Inc.
All rights reserved. 成功させるためのチームづくり • プロダクトに関するドメイン知識を持った⼈ • 統計や機械学習に明るい⼈ • 分析基盤を作れるエンジニアリング能⼒のある⼈ • 失敗してもかまわないとリスクを取ってくれる責任者 • データに対する嗅覚があればなおよい
17.
17© Cloudera, Inc.
All rights reserved. 機械学習のフロー
18.
18© Cloudera, Inc.
All rights reserved. 機械学習のデータパイプラインの例 訓練 データ 単語分割 単語 カウント ロジスティック 回帰 モデル 特徴抽出 予測モデル学習 学習 フェーズ 教師 データ
19.
19© Cloudera, Inc.
All rights reserved. 機械学習のデータパイプラインの例 訓練 データ 単語分割 単語 カウント ロジスティック 回帰 モデル テスト データ モデル 予測データ 学習 フェーズ 予測 フェーズ 教師 データ特徴抽出 予測モデル学習
20.
20© Cloudera, Inc.
All rights reserved. 機械学習(教師あり学習)をざっくり⾔うと ⼊⼒ モデル 出⼒ 学習フェーズ ⼊⼒ モデル 出⼒予測フェーズ
21.
21© Cloudera, Inc.
All rights reserved. 機械学習の業務フロー 1. 問題を定式化する 2. 機械学習をしなくて良い⽅法を考える 3. システム設計をする 4. アルゴリズムを選定する 5. 学習データ(特徴量)の設計をする 6. 実データの収集と前処理をする 7. 学習・パラメータチューニング 8. システムに組み込む Step.4〜7を繰り返し
22.
22© Cloudera, Inc.
All rights reserved. 1. 問題を定式化する • 解きたい課題について仮説を⽴て、⽬的と何をすればよいかを明確にする • 仮説の⽴て⽅は「仮説検証とサンプルサイズの基礎」が参考になる • http://techlife.cookpad.com/entry/2016/09/26/111601 良い例) • 売上を上げるために、ユーザー毎におすすめ商品を提⽰する • ⼯場の電⼒消費量を最適化するために、消費電⼒を予測する 悪い例) • とにかく有料会員の数を増やす • Deep Learning で凄いことをする
23.
23© Cloudera, Inc.
All rights reserved. 2. 機械学習をしなくて良い⽅法を考える • 機械学習は「⾼利⼦の技術的負債がたまるクレジットカード」 • D. Sculleyら “Machine Learning: The High Interest Credit Card of Technical Debt”, 2014 やりたいことは • 機械学習が向いている課題か? • ⼤量のデータに対して、⾼速に安定して判定したい? • 100%正解は求められていないか? • 別の⽅法で解けないか? MVP (Minimum Viable Product) は作れるか? • 例)クロス集計でユーザーをセグメント分けではダメ? • 例)既存ツールの機能(SolrのMoreLikeThisなど)では? MVPからはじめる
24.
24© Cloudera, Inc.
All rights reserved. 3. システム設計をする • 問題の定式化とMVPも作れたら、機械学習を含めたシステム設計をする • 予測はバッチかニアリアルタイムか? • 予測結果はどうサーブし、誰が使うのか? • 100%正解する予測はないので、誤りを許容できるシステム設計にする • 例)すべて⾃動化するのではなく、⼈⼿のチェックを設ける • 例)誤判定をユーザーからフィードバックしてもらえるようにする • 始める前に撤退ラインを決めておく(サンクコストによるバイアスを避ける) • 例)1ヶ⽉半で90%以上の予測性能が出なければ諦める
25.
25© Cloudera, Inc.
All rights reserved. 4. アルゴリズムを選定する • ざっくりと機械学習のアプローチとアルゴリズムの候補を挙げる • 教師あり学習(回帰、分類) • クラスタリング • 次元削減 • 強化学習 • 異常検知 etc... • ポイント • アルゴリズムありきにならない (❌ Deep Learningをやってみたい!) • 同⼀⽬的の複数のアルゴリズムを念頭に置く
26.
26© Cloudera, Inc.
All rights reserved. 5. 学習データ(特徴量)の設計をする • ⼿がかりとなるデータ(特徴量)として何が使えるのか? • 例)Web サービスであれば、ユーザの⾏動ログや購買履歴 • 例)⼯場であれば、センサーデータ • データの収集は後戻りが困難 • ビジネスの知識を持った⼈と、何が効果ありそうかを議論する • データエンジニアと協⼒をして、データ収集の仕組み化を進める • (教師あり学習の場合は)教師データはどう作るのか?
27.
27© Cloudera, Inc.
All rights reserved. 6. 実データの収集と前処理をする Metadata Management Ingest Processing Developer Tools: IDEs, Notebooks, SCM Operations Tools: Scheduling, Workflow, Publishing Data Management Exploration / Model Development (Feature Engineering, Training, Testing) Production / Model Deployment (Scoring and Serving) Feature Engineering Model Training & Testing Visualization Production Feature Generation Production Modeling Batch Scoring Online Scoring Model Quality & Performance Experiments Serving Storage User: Data Engineer User: Data Scientist User: Data Engineer / Application Developer HBase Spark Streaming Impala/ Spark MLlibFlume/ Kafka Hive/ Spark Spark MLlib HDFS / Kudu / HBase • 最も時間がかかる部分 • データサイエンティストは 正しいデータが取得出来ているかを逐次確認する • ミスがあったときのために 元データは出来る限り残しておく • 前処理は再現が容易なようにドキュメント化する
28.
28© Cloudera, Inc.
All rights reserved. 7. 学習・パラメータチューニング • ⼀番楽しい時間です • ⼈⼒・ルールベースといったベースラインを決めて、まずそれを超える • 実装はまずは既存のライブラリ/フレームワークのものを使う • ⼤抵は途中でデータバグが⾒つかる • 問題の切り分けをしやすいように、⼀巡回せたら難しい⼿法に挑戦 • 突然、⾮常に良い結果(99.9%!)が出たら、必ず疑う • テストデータに訓練データが混ざり過学習していないか? • 特徴量に正解の情報が含まれるleakageが起こっていないか? ⽬標性能未満なら「4. アルゴリズムを選定する」に戻る → サイクルを素早く回す
29.
29© Cloudera, Inc.
All rights reserved. 8. システムに組み込む • おめでとうございます!最初の⼀歩クリアです • 実環境で予測性能がどう推移するか、 ビジネスインパクトはどの程度あるのか? • 計測と改善を続けます。より良いものを作り続けましょう • 注意: ここでデータサイエンティストが担当を外されるプロジェクトは やがて来る外部環境の変化により予測性能が悪くなり 間違いなく失敗します
30.
30© Cloudera, Inc.
All rights reserved. 機械学習の実システムにおける 問題点
31.
31© Cloudera, Inc.
All rights reserved. 実システムの機械学習特有の問題 • 確率的な処理があるため⾃動テストがしづらい • ⻑期運⽤していると⼊⼒の傾向が変化する • 処理のパイプラインが複雑になる • データの依存関係が複雑になる • 実験コードやパラメータが残りやすい • 開発と本番の⾔語/フレームワークが異なりやすい モデルの更新容易度⤵ システムの複雑度⤴ 予測性能のみを追い求めて メンテナンス性が下がりやすい
32.
32© Cloudera, Inc.
All rights reserved. 継続的な改善をしやすくするために • 変化を前提とした設計をする • 予測性能とビジネス上のKPIをモニタリング • ゴールド・スタンダードを⽤意して予測性能のしきい値を設ける • アルゴリズムのA/Bテストができるようモジュール化 • モデルのバージョン管理をしていつでも切り戻し可能に • 開発のスピードを殺さない設計をする • 開発と本番の⾔語/フレームワークは揃える • ⼀般的なライブラリの⽅が、属⼈性が上がらなくて良い • ⼀連の処理をデータパイプラインとして保持する
33.
33© Cloudera, Inc.
All rights reserved. データパイプラインを保持するとは 訓練 データ 単語分割 単語 カウント ロジスティック 回帰 テスト データ 予測データ 学習 フェーズ 予測 フェーズ 教師 データ特徴抽出 予測モデル 単語分割 単語 カウント ロジスティック 回帰 特徴抽出 予測モデル 予測データ 最適なパラメータと共に保持・再利⽤が可能 scikit-learnで広く普及し、Sparkにも展開
34.
34© Cloudera, Inc.
All rights reserved. データパイプラインを保持するとは 訓練 データ 単語分割 単語 カウント ロジスティック 回帰 テスト データ 予測データ 学習 フェーズ 予測 フェーズ 教師 データ特徴抽出 予測モデル 単語分割 単語 カウント ロジスティック 回帰 特徴抽出 予測モデル 予測データ 最適なパラメータと共に保持・再利⽤が可能 scikit-learnで広く普及し、Sparkにも展開 単語分割 単語 カウント ロジスティック 回帰 特徴抽出 予測モデル 単語分割 単語 カウント ロジスティック 回帰
35.
35© Cloudera, Inc.
All rights reserved. Spark 2.0 でのコード例 def predict(words): spark = SparkSession.builder.master('local').appName('mlserver').getOrCreate() model = PipelineModel.load("lr.model") input_data = spark.creteDataFrame([(1L, words),], ['id', 'text']) new_rows = model.transform(input_data).select('id', 'text', 'prediction') prediction = new_rows.collect() return prediction def train (input_data): tokenizer = Tokenizer(inputCol='text', outputCol='words') hashingTF = HashingTF(inputCol=tokenizer.getOutputCol(),outputCol='features') lr = LogisticRegression(maxIter=100000, regParam=0.3, tol=0.1) pipeline = Pipeline(stages=[tokenizer, hashingTF, lr]) model = pipeline.fit(input_data) model.write().save('lr.model') 1. パイプラインを作り 2. パイプラインを保存すると 3. パイプラインごと再利⽤できる
36.
36© Cloudera, Inc.
All rights reserved. Cloud Nativeな データサイエンス
37.
37© Cloudera, Inc.
All rights reserved. オブジェクトストレージ Cloud Native なデータサイエンス • データサイエンスは試⾏錯誤が重要 • Cloudera Director + オブジェクトストレージが強い味⽅ • Cloudera Director は • AWS, GCP, Azure へのクラスタのデプロイを⾃動化 • ⻑時間稼働クラスタと⼀時的クラスタ両⽅を管理 • オブジェクトストレージで • HDFS へコピーなしで⼀時クラスタでの 処理をすぐに開始できる
38.
38© Cloudera, Inc.
All rights reserved. 典型的なワークロードの例 • Hive/Spark/ Hive on Spark with S3 • S3 のデータを直接 ETL 処理 • 予測モデルの構築・バージョニングも容易 • Impala with S3 • S3 に保存したテーブルに直接 SQL でクエリが投げられる • Python と Ibis と scikit-learn を組み合わせることで プロトタイピングもしやすい オブジェクトストレージ 対話的な分析を柔軟に⾏い フローが確定したら容易にバッチに移⾏可能
39.
39© Cloudera, Inc.
All rights reserved. 参考⽂献 • 有賀, 「データを⼀箇所に集めることでデータ活⽤の⺠主化が進んだ話」 • http://chezou.hatenablog.com/entry/2016/05/05/222046 • D. Conway, “The Data Science Venn Diagram” • http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram • K. Schmidt, ”Data Engineer vs Data Scientist vs Business Analyst” • https://medium.com/@KevinSchmidtBiz/b68d201364bc • 森⽥, 「仮説検証とサンプルサイズの基礎」 • http://techlife.cookpad.com/entry/2016/09/26/111601 • 數⾒,「メンテナブルな機械学習システムの考察」 • https://www.cyberagent.co.jp/techinfo/techreport/report/id=10586 • D. Sculley, et al. ”Machine Learning: The High Interest Credit Card of Technical Debt” • ⽐⼾, 「あなたの業務に機械学習を活⽤する5つのポイント」 • http://www.slideshare.net/shoheihido/5-38372284
40.
40© Cloudera, Inc.
All rights reserved. Question? ariga@cloudera.com
Download