Submit Search
Upload
MapReduceを使った並列化 20111212
•
Download as PPTX, PDF
•
3 likes
•
1,125 views
M
marony
Follow
もう流行り終わったMapReduce(Hadoop)の概要
Read less
Read more
Technology
Report
Share
Report
Share
1 of 14
Download now
Recommended
SQream by Rafi (japanese)
SQream by Rafi (japanese)
Yutaka Kawai
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
ゾウ使いへの第一歩
ゾウ使いへの第一歩
Fumito Ito
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
(LT)Spark and Cassandra
(LT)Spark and Cassandra
datastaxjp
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
MapR Technologies Japan
Counter Table Pattern & Temporary Table Pattern (2012-04-13 CDP Night)
Counter Table Pattern & Temporary Table Pattern (2012-04-13 CDP Night)
Ryuichi Tokugami
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
Recommended
SQream by Rafi (japanese)
SQream by Rafi (japanese)
Yutaka Kawai
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
GoAzure
ゾウ使いへの第一歩
ゾウ使いへの第一歩
Fumito Ito
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
(LT)Spark and Cassandra
(LT)Spark and Cassandra
datastaxjp
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
逆らえない大きな流れ: 次世代のエンタープライズアーキテクチャ
MapR Technologies Japan
Counter Table Pattern & Temporary Table Pattern (2012-04-13 CDP Night)
Counter Table Pattern & Temporary Table Pattern (2012-04-13 CDP Night)
Ryuichi Tokugami
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
Keigo Suda
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
What makes Apache Spark?
What makes Apache Spark?
Hadoop / Spark Conference Japan
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
FlyData Inc.
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
Shingo Furuyama
Pigのインストール
Pigのインストール
Noritada Shimizu
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
Hadoopことはじめ
Hadoopことはじめ
均 津田
Hadoop によるゲノム解読
Hadoop によるゲノム解読
MapR Technologies Japan
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
Nagato Kasaki
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
Developers Summit
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
Satoru Ishikawa
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
PySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL Graph
Oshitari_kochi
elasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
MapReduce入門
MapReduce入門
Satoshi Noto
Hadoop概要説明
Hadoop概要説明
Satoshi Noto
More Related Content
What's hot
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
Keigo Suda
Hadoop loves H2
Hadoop loves H2
Tadashi Satoh
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
Amazon Web Services Japan
What makes Apache Spark?
What makes Apache Spark?
Hadoop / Spark Conference Japan
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
FlyData Inc.
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
Shingo Furuyama
Pigのインストール
Pigのインストール
Noritada Shimizu
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
Hadoopことはじめ
Hadoopことはじめ
均 津田
Hadoop によるゲノム解読
Hadoop によるゲノム解読
MapR Technologies Japan
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
Nagato Kasaki
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
Satoru Ishikawa
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
Developers Summit
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
Satoru Ishikawa
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Shinpei Ohtani
PySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL Graph
Oshitari_kochi
elasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみる
Katsushi Yamashita
What's hot
(20)
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
Hadoop loves H2
Hadoop loves H2
金融機関でのHive/Presto事例紹介
金融機関でのHive/Presto事例紹介
What makes Apache Spark?
What makes Apache Spark?
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Hadoop Source Code Reading #17
Hadoop Source Code Reading #17
Pigのインストール
Pigのインストール
20160127三木会 RDB経験者のためのspark
20160127三木会 RDB経験者のためのspark
Hadoopことはじめ
Hadoopことはじめ
Hadoop によるゲノム解読
Hadoop によるゲノム解読
ゼロから始めるSparkSQL徹底活用!
ゼロから始めるSparkSQL徹底活用!
データ分析を支える技術 DWH再入門
データ分析を支える技術 DWH再入門
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
【14-B-2】グリーを支えるデータ分析基盤の過去と現在(橋本泰一〔グリー〕)
sparksql-hive-bench-by-nec-hwx-at-hcj16
sparksql-hive-bench-by-nec-hwx-at-hcj16
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Struggle against crossdomain data complexity in Recruit Group
Struggle against crossdomain data complexity in Recruit Group
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
PySpark Intro Part.2 with SQL Graph
PySpark Intro Part.2 with SQL Graph
elasticsearch-hadoopをつかってごにょごにょしてみる
elasticsearch-hadoopをつかってごにょごにょしてみる
Viewers also liked
MapReduce入門
MapReduce入門
Satoshi Noto
Hadoop概要説明
Hadoop概要説明
Satoshi Noto
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
techFdg pga final
techFdg pga final
Chris Pfaff
The environment rights= children's rights
The environment rights= children's rights
Grigore Gheorghita
Continued Operation Tecnology
Continued Operation Tecnology
tesla_eng
具体例をいくつ観察すれば見たい対象の全体について理解出来るか
具体例をいくつ観察すれば見たい対象の全体について理解出来るか
Toshiyuki Shimono
ordenamiento
ordenamiento
Pablo Chipana
Kontrak transaksi perkuliahan1314
Kontrak transaksi perkuliahan1314
MTs Nurul Huda Sukaraja
BBFC classification guidelines 2014
BBFC classification guidelines 2014
nctcmedia12
Final pages
Final pages
Tyrrell
Easy l ift
Easy l ift
Alessandra Brou
Biokimika 1º
Biokimika 1º
mundu1d
從溫度談科學 議題小組 成果報告
從溫度談科學 議題小組 成果報告
小翰 蔡小翰
Jx webinar csr-materiality-brand-v1-condensed
Jx webinar csr-materiality-brand-v1-condensed
Adam Garfunkel
Plan cabinas estandar
Plan cabinas estandar
Carlos Díaz
Gasteizko irteera 2B BOLIPORT
Gasteizko irteera 2B BOLIPORT
arbelar
Complete time plan Joe Hennessy
Complete time plan Joe Hennessy
nctcmedia12
Spontaneous intracerebral hemorrhage in Mexico: results from a Multicenter Na...
Spontaneous intracerebral hemorrhage in Mexico: results from a Multicenter Na...
Erwin Chiquete, MD, PhD
Thank you 2015
Thank you 2015
Joanna khoury
Viewers also liked
(20)
MapReduce入門
MapReduce入門
Hadoop概要説明
Hadoop概要説明
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
techFdg pga final
techFdg pga final
The environment rights= children's rights
The environment rights= children's rights
Continued Operation Tecnology
Continued Operation Tecnology
具体例をいくつ観察すれば見たい対象の全体について理解出来るか
具体例をいくつ観察すれば見たい対象の全体について理解出来るか
ordenamiento
ordenamiento
Kontrak transaksi perkuliahan1314
Kontrak transaksi perkuliahan1314
BBFC classification guidelines 2014
BBFC classification guidelines 2014
Final pages
Final pages
Easy l ift
Easy l ift
Biokimika 1º
Biokimika 1º
從溫度談科學 議題小組 成果報告
從溫度談科學 議題小組 成果報告
Jx webinar csr-materiality-brand-v1-condensed
Jx webinar csr-materiality-brand-v1-condensed
Plan cabinas estandar
Plan cabinas estandar
Gasteizko irteera 2B BOLIPORT
Gasteizko irteera 2B BOLIPORT
Complete time plan Joe Hennessy
Complete time plan Joe Hennessy
Spontaneous intracerebral hemorrhage in Mexico: results from a Multicenter Na...
Spontaneous intracerebral hemorrhage in Mexico: results from a Multicenter Na...
Thank you 2015
Thank you 2015
Similar to MapReduceを使った並列化 20111212
Hadoop事始め
Hadoop事始め
You&I
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
MapR Technologies Japan
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Cloudera Japan
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
Teruo Kawasaki
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
Toshihiro Suzuki
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
Akira Shimosako
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
Recruit Technologies
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
MapR Technologies Japan
S01 t3 data_engineer
S01 t3 data_engineer
Takeshi Akutsu
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
日本ヒューレット・パッカード株式会社
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR Technologies Japan
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
NTT DATA OSS Professional Services
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Sho Shimauchi
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
CData Software Japan
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recruit Technologies
Similar to MapReduceを使った並列化 20111212
(20)
Hadoop事始め
Hadoop事始め
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Apache Drill Overview - Tokyo Apache Drill Meetup 2015/09/15
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
Kuduを調べてみた #dogenzakalt
Kuduを調べてみた #dogenzakalt
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
WebDB Forum 2012 基調講演資料
WebDB Forum 2012 基調講演資料
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
事例から見るNoSQLの使い方 - db tech showcase Tokyo 2015 2015/06/11
S01 t3 data_engineer
S01 t3 data_engineer
The truth about SQL and Data Warehousing on Hadoop
The truth about SQL and Data Warehousing on Hadoop
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
MapR と Vertica エンジニアが語る、なぜその組み合わせが最高なのか? - db tech showcase 大阪 2014 2014/06/19
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
クラウド時代のデータ連携 ~ そして少し SharePoint 連携事例 ~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
ビッグデータ活用支援フォーラム
ビッグデータ活用支援フォーラム
Recently uploaded
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
Recently uploaded
(8)
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
MapReduceを使った並列化 20111212
1.
MapReduceを使った並列化 2011-12-12 多田 篤志
2.
目次 • • • • • • • • • MapReduce・Hadoopとは? なぜ今並列化なのか? 従来の並列化と問題点 Mapとは? Reduceとは? MapReduceの仕組み MapReduceのメリット MapReduceのデメリット MapReduceの活用ポイント
3.
MapReduce・Hadoopとは? • MapReduce…Googleに2004年に導入された大量 データを多数のコンピュータで処理する仕組み • Hadoop…MapReduceの論文を元にApache
Software FoundationがJavaで実装したフリーウェア 分散コンピューティング ビッグデータ 多数のコンピュータ 大量のデータ 数千のコンピュータ テラ・ペタバイト級
4.
なぜ今並列化なのか? • CPU性能の限界 ▫ クロック数は伸びず、コア数の増加 •
インフラの低コスト化 ▫ クラウド・仮想化で大量のコンピュータの導入が 可能に • BToCの台頭 ▫ 大量のユーザ・大量のデータ
5.
従来の並列化の問題点 処理1 競合の 回避 処理2 処理・デー タの分散 処理3 処理4 データ 複数マシン の管理 処理n 複雑 数千の処理 ペタバイト
6.
Mapとは? • MapReduceは関数型言語(Scala, Haskel,
Erlang…)のmap 処理とreduce処理からアイデアを受けたものです データ リストA 1 2 3 4 5 6 7 8 9 10 関数 データ全てに 同じ処理を施 す multiply x = x * 3 Map処理 map multiply リストA 結果リスト 3 6 9 12 15 18 21 24 27 30
7.
Reduceとは? データ 1 リストA 2 3 4 5 6 7 8 9 10 関数 データを集計 するもの add x y
= x + y Reduce処理 ※ 畳み込み関数(実際には左から畳み込むものと右から畳み込むものがある) reduce add リストA ※ foldとも言う 55 (add 1 (add 2 (add 3 (add 4 (add 5 (add 6 (add 7 (add 8 (add 9 10)))))))))の結果
8.
MapReduceの仕組み(1) ~全体像~ ※ データの流れをコントロール マスターサーバ Map処理 入力 Reduce処理 Sort
& Shuffle 処理 分散ファイルシステム(HDFS) 結果
9.
MapReduceの仕組み(2) ~Map処理~ • 大量のテキストファイルの単語ごとの出現回数 をカウントする処理を例にします ビッグ データ Split処理 Map処理 出力データ dog cat 入力データ Mapper
1 dog cat 1 1 cat pig Mapper 2 cat pig 1 1 pig dog Mapper 3 pig dog 1 1 dog dog Mapper n dog dog 1 1 ※ Split処理はデフォルト64MBごとに分割
10.
MapReduceの仕組み(3) ~Sort &
Shuffle処理~ 入力データ dog cat 1 1 cat pig 1 1 pig dog 1 1 dog dog 1 1 Sort処理 Sort Shuffle処理 dog dog dog dog cat cat pig pig 1 1 1 1 1 1 1 1 出力データ dog Shuffle cat pig 1 1 1 1 1 1 1 1
11.
MapReduceの仕組み(4) ~Reduce処理~ 入力データ Reduce処理 出力データ 1 1 1 1 Reducer 1 cat 1 1 Reducer
2 cat 2 pig 1 1 Reducer n pig 2 dog dog 結果 4 dog cat pig 4 2 2
12.
MapReduceのメリット • • • • • • 1台のマシンでは扱えない大量のデータが扱える 複数のマシンに分散することにより処理が高速 Map処理とReduce処理を書くのは簡単 対障害性バッチリ(らしい) スケールアウト・スケールダウンしやすい Map処理・Reduce処理を多段に組むことで複雑 な処理も可能
13.
MapReduceのデメリット • バッチ処理でしか使えない • 小規模ではボトルネックの方が大きく遅い •
処理やデータが依存しまくっていて細かく分割 できない場合は使えない
14.
MapReduceの活用ポイント • Apacheログなど大量のログの集計 • Webなど大量のテキストの集計 •
SNSなどユーザごとの大量データの処理 株価 テクニカル アルゴリズム取引
Download now