Submit Search
Upload
Data Science on Hadoop
•
11 likes
•
4,231 views
Yifeng Jiang
Follow
Hadoopにおけるデータサイエンス
Read less
Read more
Technology
Report
Share
Report
Share
1 of 48
Download now
Download to read offline
Recommended
Apache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Hadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data Platform
Yuta Imai
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
Recommended
Apache Ambari Overview -- Hadoop for Everyone
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
Hadoop最新事情とHortonworks Data Platform
Hadoop最新事情とHortonworks Data Platform
Yuta Imai
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
HDP Security Overview
HDP Security Overview
Yifeng Jiang
Hadoop概要説明
Hadoop概要説明
Satoshi Noto
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
Cloudera Japan
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
MapR Technologies Japan
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
NTT DATA OSS Professional Services
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
Naoki (Neo) SATO
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
Ichiro Fukuda
(LT)Spark and Cassandra
(LT)Spark and Cassandra
datastaxjp
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
オラクルエンジニア通信
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
MapR Technologies Japan
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR Technologies Japan
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
MapR Technologies Japan
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
MapR Technologies Japan
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
Sparkストリーミング検証
Sparkストリーミング検証
BrainPad Inc.
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
More Related Content
What's hot
HDP Security Overview
HDP Security Overview
Yifeng Jiang
Hadoop概要説明
Hadoop概要説明
Satoshi Noto
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
Cloudera Japan
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Cloudera Japan
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
MapR Technologies Japan
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
NTT DATA OSS Professional Services
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
Naoki (Neo) SATO
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
Satoru Ishikawa
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
Ichiro Fukuda
(LT)Spark and Cassandra
(LT)Spark and Cassandra
datastaxjp
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
オラクルエンジニア通信
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
MapR Technologies Japan
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR Technologies Japan
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
MapR Technologies Japan
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
MapR Technologies Japan
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
What's hot
(20)
HDP Security Overview
HDP Security Overview
Hadoop概要説明
Hadoop概要説明
Hadoopデータプラットフォーム #cwt2013
Hadoopデータプラットフォーム #cwt2013
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
日々進化するHadoopの 「いま」
日々進化するHadoopの 「いま」
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
[de:code 2017] 並列分散処理の考え方とオープンソース分散処理系の動向
Developers.IO 2019 Effective Datalake
Developers.IO 2019 Effective Datalake
20130313 OSCA Hadoopセミナー
20130313 OSCA Hadoopセミナー
(LT)Spark and Cassandra
(LT)Spark and Cassandra
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
スケールアウト・インメモリ分析の標準フォーマットを目指す Apache Arrow と Value Vectors - Tokyo Apache Dril...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
ビジネスへの本格活用が始まったHadoopの今 ~MapRが選ばれる理由~ - ビッグデータEXPO東京 2014/02/26
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Viewers also liked
Sparkストリーミング検証
Sparkストリーミング検証
BrainPad Inc.
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Preferred Networks
Hadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライド
hamaken
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
Preferred Networks
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
Hadoop with Python
Hadoop with Python
Donald Miner
Viewers also liked
(6)
Sparkストリーミング検証
Sparkストリーミング検証
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
Hadoop Conference Japan 2013 Winter オープニングスライド
Hadoop Conference Japan 2013 Winter オープニングスライド
MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Hadoop with Python
Hadoop with Python
Similar to Data Science on Hadoop
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
Kimihiko Kitase
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
The real world use of Big Data to change business
The real world use of Big Data to change business
DataWorks Summit/Hadoop Summit
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
オラクルエンジニア通信
Yifeng hadoop-present-public
Yifeng hadoop-present-public
Yifeng Jiang
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
Insight Technology, Inc.
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
Kimihiko Kitase
Big data解析ビジネス
Big data解析ビジネス
Mie Mori
「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4
Yahoo!デベロッパーネットワーク
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Recruit Technologies
Hwx勉強会0730
Hwx勉強会0730
Joutaro Ooura
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFi
Yuta Imai
DBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - Delphix
Masaya Ishikawa
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
Recruit Technologies
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
MapR Technologies Japan
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
Hadoopカンファレンス2013
Hadoopカンファレンス2013
Recruit Technologies
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
Insight Technology, Inc.
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
オラクルエンジニア通信
Similar to Data Science on Hadoop
(20)
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
The real world use of Big Data to change business
The real world use of Big Data to change business
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
しばちょう先生が語る!オラクルデータベースの進化の歴史と最新技術動向#1
Yifeng hadoop-present-public
Yifeng hadoop-present-public
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
クラウドにおけるビッグデータ分析環境
クラウドにおけるビッグデータ分析環境
Big data解析ビジネス
Big data解析ビジネス
「Data Infrastructure at Scale 」#yjdsw4
「Data Infrastructure at Scale 」#yjdsw4
ビッグデータ&データマネジメント展
ビッグデータ&データマネジメント展
Hwx勉強会0730
Hwx勉強会0730
IoTアプリケーションで利用するApache NiFi
IoTアプリケーションで利用するApache NiFi
DBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - Delphix
リクルート式Hadoopの使い方
リクルート式Hadoopの使い方
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
Hadoopカンファレンス2013
Hadoopカンファレンス2013
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
0151209 Oracle DDD OracleとHadoop連携の勘所
0151209 Oracle DDD OracleとHadoop連携の勘所
More from Yifeng Jiang
Hive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfs
Yifeng Jiang
introduction-to-apache-kafka
introduction-to-apache-kafka
Yifeng Jiang
Hive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big Data
Yifeng Jiang
Introduction to Streaming Analytics Manager
Introduction to Streaming Analytics Manager
Yifeng Jiang
HDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for Everyone
Yifeng Jiang
Hortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 Updates
Yifeng Jiang
Spark Security
Spark Security
Yifeng Jiang
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWS
Yifeng Jiang
Real-time Analytics in Financial
Real-time Analytics in Financial
Yifeng Jiang
Nifi workshop
Nifi workshop
Yifeng Jiang
Sub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scale
Yifeng Jiang
Hive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
Yifeng spark-final-public
Yifeng spark-final-public
Yifeng Jiang
Kinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-dive
Yifeng Jiang
Hive present-and-feature-shanghai
Hive present-and-feature-shanghai
Yifeng Jiang
Hadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise Hadoop
Yifeng Jiang
Apache Hiveの今とこれから
Apache Hiveの今とこれから
Yifeng Jiang
HDFS Deep Dive
HDFS Deep Dive
Yifeng Jiang
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
More from Yifeng Jiang
(19)
Hive spark-s3acommitter-hbase-nfs
Hive spark-s3acommitter-hbase-nfs
introduction-to-apache-kafka
introduction-to-apache-kafka
Hive2 Introduction -- Interactive SQL for Big Data
Hive2 Introduction -- Interactive SQL for Big Data
Introduction to Streaming Analytics Manager
Introduction to Streaming Analytics Manager
HDF 3.0 IoT Platform for Everyone
HDF 3.0 IoT Platform for Everyone
Hortonworks Data Cloud for AWS 1.11 Updates
Hortonworks Data Cloud for AWS 1.11 Updates
Spark Security
Spark Security
Introduction to Hortonworks Data Cloud for AWS
Introduction to Hortonworks Data Cloud for AWS
Real-time Analytics in Financial
Real-time Analytics in Financial
Nifi workshop
Nifi workshop
Sub-second-sql-on-hadoop-at-scale
Sub-second-sql-on-hadoop-at-scale
Hive-sub-second-sql-on-hadoop-public
Hive-sub-second-sql-on-hadoop-public
Yifeng spark-final-public
Yifeng spark-final-public
Kinesis vs-kafka-and-kafka-deep-dive
Kinesis vs-kafka-and-kafka-deep-dive
Hive present-and-feature-shanghai
Hive present-and-feature-shanghai
Hadoop Present - Open Enterprise Hadoop
Hadoop Present - Open Enterprise Hadoop
Apache Hiveの今とこれから
Apache Hiveの今とこれから
HDFS Deep Dive
HDFS Deep Dive
Hadoop Trends & Hadoop on EC2
Hadoop Trends & Hadoop on EC2
Recently uploaded
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
Toru Tamaki
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
CRI Japan, Inc.
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
WSO2
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
CRI Japan, Inc.
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
atsushi061452
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Hiroshi Tomioka
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
sn679259
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Toru Tamaki
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
iPride Co., Ltd.
Recently uploaded
(12)
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
論文紹介:Selective Structured State-Spaces for Long-Form Video Understanding
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
LoRaWAN スマート距離検出デバイスDS20L日本語マニュアル
新人研修 後半 2024/04/26の勉強会で発表されたものです。
新人研修 後半 2024/04/26の勉強会で発表されたものです。
Utilizing Ballerina for Cloud Native Integrations
Utilizing Ballerina for Cloud Native Integrations
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
LoRaWANスマート距離検出センサー DS20L カタログ LiDARデバイス
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
論文紹介: The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その22024/04/26の勉強会で発表されたものです。
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
Observabilityは従来型の監視と何が違うのか(キンドリルジャパン社内勉強会:2022年10月27日発表)
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
知識ゼロの営業マンでもできた!超速で初心者を脱する、悪魔的学習ステップ3選.pptx
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
論文紹介:Video-GroundingDINO: Towards Open-Vocabulary Spatio-Temporal Video Groun...
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Amazon SES を勉強してみる その32024/04/26の勉強会で発表されたものです。
Data Science on Hadoop
1.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoopにおけるデータサイエンス Yifeng Jiang March 10, 2015
2.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 自己紹介 蒋 逸峰 (Yifeng Jiang) • Solutions Engineer @ Hortonworks Japan • HBase Book Author • ⽇日本に来て10年年経ちました… • 週末の趣味は登⼭山 • @uprush
3.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved アジェンダ • データサイエンスとは? • 機械学習の概要 • 教師あり学習モデルの詳細 • Hadoopにおけるデータサイエンス
4.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データサイエンスとは?
5.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データサイエンスとは? データの科学的探索索から意味や知⾒見見を抽出することであり、 ソフトウェアシステムを構築し、そのような知⾒見見をビジネス に関連して活⽤用すること ... 発見の技術 ... そしてオペレーションの科学
6.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データサイエンスの分類 予測をする 予測分析 洞洞察を得る 記述的分析 クラスタニング バスケット解析 異常値検出 分類 回帰 レコメンデーション
7.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データサイエンスはビジネス・インテリジェンス(BI)の 次の⾃自然なステップ 価値 改良良 抽出 強化 データサイエンス ダッシュボード レポート スコアカード バスケット解析 異異常値検出 クラスタリング レコメンデーション 回帰 分類 Business Intelligence: 測定 & カウント; 簡単な分析 Data Science: 発⾒見見 & 予測; 複雑な分析; “データ製品” 発⾒見見 予測
8.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved なぜデータサイエンスは必要なのか? ¥ • サプライヤ統合 • サプライチェーンと物流流 • 組⽴立立ラインの品質保証 • プロアクティブメンテナンス • クラウドソースの品質保証 • 新規⼝口座のリスク審査 • 不不正防⽌止 • 取引リスク • 預⾦金金スプレッドの最⼤大化 • 保険引受 • ローン処理理の⾼高速化 • 通話詳細レコード(CDR) • インフラ投資 • 次に購⼊入する製品(NPTB) • リアルタイムでの帯域幅割 り当て • 新製品開発 • 顧客の 360 度度ビュー • ブランドに対する市場⼼心理理 の分析 • プロモーションのローカラ イズとパーソナライズ • ウェブサイトの最適化 • 店舗レイアウトの最適化 ⾦金金融業界 ⼩小売業界 通信業界 製造業界 医療療業界 電⼒力力、⽯石油 ガス業界 公共部⾨門 • 臨臨床実験でのゲノムデータの 活⽤用 • 患者のバイタルサインの監視 • 再⼊入院率率率の低減 • 医療療研究データの保存 • 薬剤実験協⼒力力者の募集 • スマートメーターストリー ム分析 • 油井減少曲線の減速 • リース⼊入札の最適化 • コンプライアンスレポート • プロアクティブな機器修理理 • 地震画像処理理 • 世論論の分析 • 重要なネットワークの保護 • 不不正や浪浪費の防⽌止 • インフラ修復復をクラウド ソースにより報告 • 記録の開⽰示請求の履履⾏行行 データサイエンスは、 これらすべてのユース ケースにメリットを与 えます。
9.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved ウェブの巨人は、ビッグデータへのデータサイエンスを適 用し、データ製品のROIを証明した Amazon: 35%の商品売上は 商品のレコメンデーション 経由 Netflix: 75%のビデオスト リーミングはレコメン デーションの成果 広告CTRの予測
10.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データサイエンスとは反復復的なもの… 可視化、 完全な理理解 仮定から モデル作成 測定/評価 データ 取得 データの クリーニング 質問を 公式化 配置
11.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データ 探索索 フィーチャー エンジニアリング ⽣生データ変更更 データサイエンスとは、様々な知識識を組合せたもの ... データサイエンスは、 3つの主要グループ と、それらをサポート する機能から成り⽴立立っ ています。 データサイエンティス トは、技術的機能から 分析的機能まで、これ らすべての知識識に習熟 している必要がありま す。 信号処理理 OCR 変換 正常化 集計 簡易易統計 データ モデリング 頻繁なアイテム セット 異異常検出 クラスタリング 協調フィルタ 回帰 分類 教師あり学習 教師なし学習 報告可視化データ品質 技術的 分析的 次元縮⼩小 機能 選択 情報理理論論 ⾃自然⾔言語処理理 ( NLP ) 前処理理
12.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データサイエンスにおける専門分野 データエンジニア • データエンジニアリング(品質、 ETL 、パイプラインなど…) • コンピュータサイエンス • プログラミング(Java、 Scala、 Python など…) 応⽤用科学者 • 現実世界の問題の解決に取り組む研究 科学者 • 機械学習、⾼高度度統計、応⽤用数学、 NLP、可視化。 ビジネスアナリスト • ビジネスや特定分野の専⾨門知識識 • SQL、Excel、可視化ツール ビッグデータエンジニア • Hadoop、 PIG、 HIVE、カスケーディン グ、SOLR など • ⼤大規模データセットに関する統計と機械 学習
13.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データサイエンスにおける専⾨門分野 データエンジニア • データエンジニアリング(品質、 ETL など…) • コンピュータサイエンス • コーディング(Java、 Scala、 Python など…) 応用科学者 • 現実世界の問題の解決に取り組む研究 科学者 • 機械学習、高度統計、応用数学、NLP、 可視化。 ビジネスアナリスト • 可視化 • ビジネスや特定分野の専門知識 ビッグデータエンジニア • Hadoop、 PIG、 HIVE、カスケーディン グ、SOLR など • 大規模データセットに関する統計と機械 学習ユニコーン!
14.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データサイエンティストのスキルの連続体 役割 機能 得意分野 応用科学者 • データ内の信号を発見 • モデルの構築・調整 • アルゴリズムの選択 • 統計、機械学習 • テキスト処理、 NLP • R、 MATLAB、 SAS、 SQL • スクリプティング • 可視化 / わかりやすい説明 データエンジニア • 製品グレードのデータパイ プラインの設計と実行 • ソフトウェアエンジニアリン グに関する基準の順守 • データアーキテクチャの設計・実行 • 「生産品質」のコード作成 • Hadoop、 PIG/HIVE、 Map-Reduce、運用管理 • Java、 Python、 Perl、 SQL、 C++、 • NoSQL ( Hbase、 Cassandra、 Mongo ) ソフトウェア エンジニア リサーチ サイエンティスト データ エンジニア データ サイエンティスト 応⽤用 科学者
15.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データサイエンティストのスキルの連続体 ソフトウェア エンジニア リサーチ サイエンティスト データ エンジニア データ サイエンティスト 応⽤用 科学者 こうした⼈人材は⼆二⼈人⼀一組で採⽤用する
16.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 機会学習の概要
17.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 機械学習とは? • 機械学習 とは、データから学習し、明⽰示的 なプログラムがなくても作動するコン ピュータを実現させる科学 • 機械学習とは、データから学習が可能なシ ステムの構築と研究を指す。 • 機械学習の核となるのは表現と⼀一般化への 取組みであり、システムが未知のデータイ ンスタンス上で良良好に機能し、未知のイベ ントを予測できるようになる。 • 機械学習には⾮非常に多様なタスクや、成功 しているアプリケーションがある。 WALL-‐‑‒E は 700 年年間⼈人間の ものを収集するという経験を 地球上で積んだ後、感情を持 つことを学んだ機械のこと
18.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 教師あり学習 • 教師あり学習:トレーニ ングデータ(機械学習ア ルゴリズムに対して表現 されるデータ)にはラベ ルが付けられている。こ の場合、与えられたラベ ルに基づく新データの分 類が機械のタスクになる。
19.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 教師なし学習 教師なし学習:機械ア ルゴリズムにはトレー ニングデータが全く与 えられておらず、新 データに関する情報を 発⾒見見しなければならな い。
20.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 六六つの機械学習タスク 教師なしのタスク • クラスタリング • 異異常値検出 • バスケット解析 • レコメンデーション 教師ありのタスク • 分類 • 回帰
21.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 教師ありの例例: 検索索結果の広告CTR Rank = bid * CTR 各広告のCTR を予測し、 広告の配置を決定 • CTRの履履歴 • キーワードマッチ • Etc…
22.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 教師なしの例例:製品の推奨 “嗜好の予測”: Collaborative Filtering 似通った“好み”の⼈人間を特定
23.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 教師あり学習モデルの詳細
24.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Model 予測 教師あり学習ワークフロー フィーチャー の抽出 モデル トレー ニング モデル ⽣生データ (Train) ラベル 新規 データ フィーチャー の抽出 ラベル トレーニング 予測 評価 モデル Feature Matrix Feature Vector
25.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved クローズアップ: フィーチャーの抽出 ⽣生データ ID Total$ Age City Target 101 200 25 SF 102 350 35 LA 103 25 15 LA … … … … Feature MatrixFeature Engineering Raw Transforms Signal Processing OCR Geo-spatial Normalize Transform/ aggregate Sample Dimensionality reduction Feature Selection NLP Mutual Information TB, PB フィーチャー の抽出 MB, GB
26.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved フィーチャーマトリックスのデータ構造 各行は1つのデータオブジェクト 各列は1つのフィーチャー(あるいは変数) 最後の列は時には特別な意味を持つ
27.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved サンプル: 売上のトランザクションデータ Shopper ID TX ID Apple Banana Honey Milk Bread 101 TX 1 4 5 1 1 0 102 TX 2 0 2 0 1 1 103 TX 3 0 0 0 0 2 101 TX 4 1 1 0 0 0 Apple Banana Honey Milk Bread Price $2 $1 $5 $3 $4 Age City Size of household 101 25 SF 4 102 35 LA 3
28.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved サンプル: 顧客フィーチャーマトリックス 正しいフィーチャーを決めるタスクは容易ではない Shopper ID # Tx Total $ Age City 101 10 $200 25 SF 102 15 $350 35 LA 103 2 $25 15 LA … 25 $5 15 NYC
29.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved クラスタニング: 自然グループの検出 クラスタ番号 ビジネスのユースケース - 顧客セグメンテーション - ニュース記事の分類 ID Total$ Age City 101 $200 25 SF 2 102 $350 35 LA 2 103 $25 15 LA 1 … … … … 1 1 2 2 2
30.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved フィーチャーマトリックスはどれくらい⼤大きいのか? 例例: • 10M ⾏行行, 100 フィーチャー • 各フィーチャー= 8 bytes (double) • メモリーの合計 = ~∼7.5GB
31.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved クローズアップ: モデルのトレーニング モデルの トレーニング トレーニン グセット モデル モデル の評価 メトリック l フィーチャーマトリックスはランダムに“トレーニング(70%)とバリデーション (30%)セットに分けられる l モデルはトレーニングセットを使い作成され、エラー検出はバリデーションセット により計算される l 繰り返し処理理またはグリッドサーチは最適なアルゴリズムとパラメーターを選定 • 最適なモデル精度度が得られる • 過度度な学習を防ぐ バリデーショ ンセット
32.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 分類器のパフォーマンスを評価 • “confusion matrix” の決定 • 計算メトリックス:精密さ、再現率率率、精度度と 特異異性 実際 Yes No 予測 Yes True positives False positives No False negatives True negatives Confusion Matrix confusion matrixを⽤用いてこれらの数値を計算が可能 精密さ = % of positive predicts that are correct 再現率率率 = % of positive instances that were predicts as posit F1 スコア = a measure of testʼ’s accuracy, combining precisi 精度度= % of correct classifications
33.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved レコメンデーション– ハイレベルフロー フィーチャー抽 出 ALS ユーザー/商 品 マトリックス 生データ レコメンデーショ ン MySQL / HBase ウェブサーバー Hadoopクラスタ
34.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoopとデータサイエンス
35.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved YARN と Data Lake がサイエンティストに進化をも たらしました 2013 年年秋、 YARN は、主に単⼀一ワークロードのサイロ化システムであった Hadoop を、複 数のワークロードを同時に実⾏行行できるマルチテナントシステムへと進化させました YARN が Data Lake という概念念を可能にしたのです • データをすべて⽣生のフォーマットで格納する能⼒力力 • サイロ化されたデータの統合 • Data Lake の「価値」は、データ資産が移⾏行行してくるにつれ⾮非線形的に増加します • Hadoop は、今やストレージと処理理能⼒力力との共有資産といえます… この進歩により、データサイエンティストは前もって資⾦金金調達⼿手配を⾏行行わなく ても、アイディアを迅速にプロトタイプ化することが可能になりました 今すぐ、データにも処理理能⼒力力にもアクセス可能
36.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved 新しいデータ が必要です やっと収集 が始まった えっと・・・ それって何か 良良いことなの? 開始 6 ヶ⽉月 9 ヶ⽉月 “Schema change” プロジェクト HDFSのフォルダ に⼊入れておこう えっと・・・ それって何か 良良いことなの? 3ヶ⽉月 ⾃自分のモデルって すごく良良いかも! “Schema on read” はデータ改⾰革を加速
37.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoopは前処理理に最適 結合 正常化 OCR サンプル 集計 ⽣生データ フィーチャー マトリックス NLP Hadoop クラスタ 変換 機械学習に⼊入⼒力力
38.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoop は前処理理として理理想的 Feature Engineering Raw Transforms Signal Processing OCR Geo-‐‑‒spatial Normalize Transform/ aggregate Sample Dimensionalit y reduction Feature Selection NLP Mutual Information データモデリング Frequent Itemset Anomaly Detection Clustering Collaborative Filter Regression Classification Supervised Learning Unsupervised Learning 前処理理 より良良いフィーチャーマトリックス • より多くの、かつ新しい機能 • より多くのインスタンス • より多いデータでも⾼高速化
39.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved データサイエンスツールとHadoop • 既存のツールの使⽤用:R, Python Scikit-‐‑‒learn or SASな ど • Mahout:⼀一部のケースにおいては有効(ただし、将来 は…) • Spark ML-‐‑‒Lib:⽐比較的新しいソリューションにも関わらず 推奨
40.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoopによる教師ありモデルのトレーニング • 通常 “トレーニングセット” はそれほど⼤大きくはない • この場合、通常ハイメモリーノードでのトレーニング • 既存のツールの使⽤用: R, Python Scikit-‐‑‒learn or SAS • メモリに収まらない⾮非常に⼤大きなトレーニングセットの場合 • ⼀一部のケースにおいてはMahout は有効 (ただし、将来は…) • Spark ML-‐‑‒Libは ⽐比較的新しいソリューションにも関わらず推奨 • Hadoopはパラメーターチューニングにおいても有効 • Grid-‐‑‒search: モデルのパラメーターの最適化
41.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoopによる教師ありモデルのスコアリング • ⼀一つのインスタンスのスコアリングは通常は早い • ⼀一部のケースでは、⼤大量量のデータポイントに対して頻繁に バッチ リスコアリングが必要(例例:20Mカスタマー) • PMML スコアリングエンジンを使⽤用 (e.g., Zementis, Pattern) • Python, R, Java, などによるカスタム実装
42.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoopによる教師なし学習 • クラスタリング • 多くのクラスタリングアルゴリズムは、並列列化されている • Distributed K-‐‑‒means は⼀一般的であり、Spark ML-‐‑‒Lib & Mahout で利利⽤用が可能 • Collaborative Filtering • Alternating Least Squares (ALS) – ⾮非常に並列列化 • Mahout, Spark ML-‐‑‒Lib, などにALSが実装 • 商品別あるいは顧客別Collaborative FilteringがMahoutで利利⽤用可能
43.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved デプロイの考え⽅方: HadoopとR • Rと関連したパッケージはそれぞれのノー ドにインストール • ユーザーはハイメモリーノードでRを実⾏行行 • Rstudio または Rstudio サーバー • RCloud • Hadoopへのインターフェース • RMR: map-‐‑‒reduce を Rから実⾏行行 • RHDFS: RからHDFSファイルをアクセス • RHIVE: Rからhive クエリを実⾏行行 • RHBase: RからHbaseにアクセス • RODBC Rstudio, Rcloud Rhadoop RHive R . . . . . . . R YARN R high- memory node
44.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved デプロイの考え⽅方: Hadoop と Python • それぞれのノードおよびハイメモリーノー ドにPythonおよび関連パッケージをイン ストール • ユーザーはPythonをハイメモリーノード で実⾏行行 • 卓越したUIのIpythonノートブック • Hadoopへのインターフェース • PyDoop: PythonからHDFSへのアクセス • Hadoop ストリーミングによるMap-‐‑‒reduce ジョブ • PIGからPython UDFs を利利⽤用 IPython Pandas, Scikit-learn Numpy, Scipy Matplotlib PyDoop Python Scikit-learn Pandas . . . . . . . Python Scikit-learn Pandas YARN Python high- memory node
45.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved デプロイの考え⽅方: HadoopとSpark • ユーザーはEdge Nodeから直接Spark (あ るいは ML-‐‑‒Lib) ジョブ を実⾏行行 • Scala API または Java API • Python API でも良良し • SparkはYARN ジョブとして直接実⾏行行 • 他に⼀一切切インストールする必要なし Spark ML-LibEdge node Spark . . . . . . . Spark YARN
46.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved まとめ
47.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Hadoopにおけるデータサイエンス • データサイエンスはHadoopクラスタの重要機能の1つ • データサイエンティストは採⽤用が難しい、正しいスキル を持つチームを採⽤用 • HadoopやYARNがデータサイエンスの最適な環境を作 り上げた • Hadoopにはデータサイエンスを⾏行行うためのツールがた くさんある
48.
© Hortonworks Inc.
2011 – 2015. All Rights Reserved Thank You! Yifeng Jiang – Solutions Engineer
Download now