サンプルから見るMapReduceコード

•

5 likes•1,780 views

Shinpei Ohtani

Mapperしか出来ませんでしたが、とりあえず。

Technology

Cloudera
Avro
Sqoop

Desktop

Pig
Hive
HBase
Chukwa

Map Zoo
HDFS

Reduce
Keeper

Core

MapReduce
• WordCount
•
•
– Mapper/Reducer Job ⾏行行
– InputFormat/OutputFormat ⽅方
– HDFS(FileSystem)
– Writable ⽅方

WordCount
• Hadoop Hello World
• API
(org.apache.hadoop.mapreduce)
• API

Grep
• grep
– grepJob/sortJob 2
⾏行行
– JobConf/Mapper/Reducer ⽅方
– Mapper RegexMapper ⾏行行 <Text,
Long> SequenceFileFormat
– sortJob
– ⼒力力
–

o.a.hadoop.mapred.JobConf
•
– mapred-default.xml
– conf/mapred-site.xml
– XML ⾝身
DOM
– ⾃自⽬目⼿手
– ⼦子
• JobConf child = new JobConf( Conf, jar
);

mapred-site.xml
<configuration>
<!– -->
<property>
<key>mapred.job.tracker</key>
<value>your-site:9001</value>
</property>
</configuration>

o.a.hadoop.mapred.Mapper
• Mapper
• InputSplit Mapper
• MapTask/MapRunner
• map(KEY, VALUE, COLLECTOR,
REPORTER)
– KEY:Map VALUE:Map
– COLLECTOR:
– REPORTER: API
• MapReduceBase

o.a.hadoop.mapred.MapTask
• Map
• initiazlize (Task Reducer )
– ⽣生
– (o.a.h.mapred.TaskStatus.State)
• RUNNING, SUCCEEDED, FAILED, UNASSIGNED,
KILLED, COMMIT_PENDING, FAILED_UNCLEAN,
KILLED_UNCLEAN
– OutputCommiter ⽣生
• Task ⼒力力⾏行行
• ⼒力力
– mapred.work.output.dir

o.a.h.mapred.MapTask cont
• run runOldMapper
• JobClient
InputSplit
• RecordReader

o.a.h.mapred.MapTask cont2
• Reduce
– spill (* )
• $mapred.local.dir/taskTracker/jobcache/$
{taskid}/output/spill${spillNumber}.out
– Reducer
⼒力力
• Combiner min.num.spills.for.combine
combiner
– RecordWriter ⼒力力
• MapRunner

o.a.h.mapred.MapRunner
• MapRunnable
– mapred.map.runner.class
– Hadoop
PipeMapRunner
– Map
MultiThreadedMapRunner

o.a.h.mapred.MapRunner
cont
• run(RecordReader, OutputCollector,
Reporter)
– RecordReader: InputFormat Split
Reader(InputFormat/RecordReader
)
•
– RecordReader
–
⾝身
–

MapTask
MapRunner
Mapper
Record Output
Reader
Collector
Input
Split⽣生

Spill
& run
createKey() SpillThread
createValue()

next(key, value)

EOF
Map(key, value,
Spill
outputCollector, reporter)

• Mapper
– JobConf
– Mapper/MapRunner/MapTask
•
– Reducer
• Reducer ⾏行行
• Reducer ⾏行行
– InputFormat/RecordReader

o.a.h.mapred.Reducer
• Reducer
• InputSplit Mapper
• ReduceTask/ReduceRunner
• reduce(KEY, Iterator<VALUE>,
COLLECTOR, REPORTER)
– KEY: Iterator<VALUE>:
– COLLECTOR:
– REPORTER: API
• MapReduceBase

o.a.h.mapred.ReduceTask
• SHUFFLE
• ReduceTask.ReduceCopier
– fetchOutputs( Merger.MergeQueue)
• Map x mapred.reduce.parallel.copies

– MapOutputCopier
• Map
⾏行行 LocalFSMerger
• ⾏行行 InMemFSMergeThread
• GetMapEventsThread
– Map
– < , MapOutputLocation(taskId, host, httpUrl)>
• ⼀一 TaskTracker ⼯工

o.a.h.mapred.ReduceTask
• run(RecordReader, OutputCollector,
Reporter)
• SORT
– Memory, disk ⽣生
• RowKeyValueItetator
– Reducer ⽣生
– RecordWriter ⽣生
– ReduceValuesIterator ⾏行行

What's hot

Hive User Meeting August 2009 Facebookragho

Apache beam — promyk nadziei data engineera na Toruń JUG 28.03.2018Piotr Wikiel

SQL to Hive Cheat SheetHortonworks

Installing Apache Hive, internal and external table, import-export Rupak Roy

Hive commandsGanesh Sanap

Sql cheat sheetsolgenomics

Shark - Lab AssignmentFarzad Nozarian

Hive vs Pig for HadoopSourceCodeReadingMitsuharu Hamba

HadoopThe Hadoop Java Software FrameworkThoughtWorks

Hadoop導入事例 in クックパッドTatsuya Sasaki

Introduction to scoop and its functionsRupak Roy

Infrastructure as Code with TerraformMario IC

Lua: the world's most infuriating languagejgrahamc

HBase + Hue - LA HBase User Groupgethue

Build your own_map_by_yourselfMarc Huang

REST Active Resource - 7º Encontro do GURU SorocabaLucas Renan

Hive User Meeting March 2010 - Hive TeamZheng Shao

Using spaces (Drupal)Stijn De Meyere

Advanced Sqoop Yogesh Kulkarni

What's New In JDK 10Vladimir Tsanev

What's hot (20)

Hive User Meeting August 2009 Facebook

Apache beam — promyk nadziei data engineera na Toruń JUG 28.03.2018

SQL to Hive Cheat Sheet

Installing Apache Hive, internal and external table, import-export

Hive commands

Sql cheat sheet

Shark - Lab Assignment

Hive vs Pig for HadoopSourceCodeReading

HadoopThe Hadoop Java Software Framework

Hadoop導入事例 in クックパッド

Introduction to scoop and its functions

Infrastructure as Code with Terraform

Lua: the world's most infuriating language

HBase + Hue - LA HBase User Group

Build your own_map_by_yourself

REST Active Resource - 7º Encontro do GURU Sorocaba

Hive User Meeting March 2010 - Hive Team

Using spaces (Drupal)

Advanced Sqoop

What's New In JDK 10

Similar to サンプルから見るMapReduceコード

Hadoop MapReduce Streaming and PipesHanborq Inc.

Lecture 2 part 3Jazan University

mapreduce ppt.pptTAGADPALLEWARPARTHVA

L3.fa14.pptTushar557668

Osd ctw sparkWisely chen

MAP REDUCE IN DATA SCIENCE.pptxHARIKRISHNANU13

Map ReducePrashant Gupta

Hadoop Overview kdd2011Milind Bhandarkar

Hadoop Overview & Architecture EMC

Hive Anatomynzhang

Introduction to Spark on HadoopCarol McDonald

Hadoop londonYahoo Developer Network

Hadoop first mr job - inverted index constructionSubhas Kumar Ghosh

Large Scale Data Processing & StorageIlayaraja P

Elephant in the cloudrhatr

Processing massive amount of data with Map Reduce using Apache Hadoop - Indi...IndicThreads

Brust hadoopecosystemAndrew Brust

MapReduce ParadigmDilip Reddy

Hadoop M/R Pig Hivezahid-mian

Similar to サンプルから見るMapReduceコード (20)

Hadoop MapReduce Streaming and Pipes

Lecture 2 part 3

mapreduce ppt.ppt

L3.fa14.ppt

Osd ctw spark

MAP REDUCE IN DATA SCIENCE.pptx

Map Reduce

Hadoop Overview kdd2011

Hadoop Overview & Architecture

Hive Anatomy

Introduction to Spark on Hadoop

Hadoop london

Hadoop first mr job - inverted index construction

Large Scale Data Processing & Storage

Elephant in the cloud

Processing massive amount of data with Map Reduce using Apache Hadoop - Indi...

Brust hadoopecosystem

MapReduce Paradigm

Hadoop M/R Pig Hive

Recently uploaded

Top 5 Benefits OF Using Muvi Live Paywall For Live StreamsRoshan Dwivedi

Automating Google Workspace (GWS) & more with Apps Scriptwesley chun

Partners Life - Insurer Innovation Award 2024The Digital Insurer

Kalyanpur ) Call Girls in Lucknow Finest Escorts Service 🍸 8923113531 🎰 Avail...gurkirankumar98700

08448380779 Call Girls In Civil Lines Women Seeking MenDelhi Call girls

Boost PC performance: How more available memory can improve productivityPrincipled Technologies

Tata AIG General Insurance Company - Insurer Innovation Award 2024The Digital Insurer

Driving Behavioral Change for Information Management through Data-Driven Gree...Enterprise Knowledge

Salesforce Community Group Quito, Salesforce 101Paola De la Torre

04-2024-HHUG-Sales-and-Marketing-Alignment.pptxHampshireHUG

Finology Group – Insurtech Innovation Award 2024The Digital Insurer

08448380779 Call Girls In Friends Colony Women Seeking MenDelhi Call girls

Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...Neo4j

Unblocking The Main Thread Solving ANRs and Frozen FramesSinan KOZAK

From Event to Action: Accelerate Your Decision Making with Real-Time AutomationSafe Software

Developing An App To Navigate The Roads of BrazilV3cube

WhatsApp 9892124323 ✓Call Girls In Kalyan ( Mumbai ) secure servicePooja Nehwal

Data Cloud, More than a CDP by Matt RobisonAnna Loughnan Colquhoun

🐬 The future of MySQL is Postgres 🐘RTylerCroy

Injustice - Developers Among Us (SciFiDevCon 2024)Allon Mureinik

Recently uploaded (20)

Top 5 Benefits OF Using Muvi Live Paywall For Live Streams

Automating Google Workspace (GWS) & more with Apps Script

Partners Life - Insurer Innovation Award 2024

Kalyanpur ) Call Girls in Lucknow Finest Escorts Service 🍸 8923113531 🎰 Avail...

08448380779 Call Girls In Civil Lines Women Seeking Men

Boost PC performance: How more available memory can improve productivity

Tata AIG General Insurance Company - Insurer Innovation Award 2024

Driving Behavioral Change for Information Management through Data-Driven Gree...

Salesforce Community Group Quito, Salesforce 101

04-2024-HHUG-Sales-and-Marketing-Alignment.pptx

Finology Group – Insurtech Innovation Award 2024

08448380779 Call Girls In Friends Colony Women Seeking Men

Neo4j - How KGs are shaping the future of Generative AI at AWS Summit London ...

Unblocking The Main Thread Solving ANRs and Frozen Frames

From Event to Action: Accelerate Your Decision Making with Real-Time Automation

Developing An App To Navigate The Roads of Brazil

WhatsApp 9892124323 ✓Call Girls In Kalyan ( Mumbai ) secure service

Data Cloud, More than a CDP by Matt Robison

🐬 The future of MySQL is Postgres 🐘

Injustice - Developers Among Us (SciFiDevCon 2024)

サンプルから見るMapReduceコード

1. MapReduce @shot6

2. Cloudera Avro Sqoop Desktop Pig Hive HBase Chukwa Map Zoo HDFS Reduce Keeper Core

3. Cloudera Avro Sqoop Desktop Pig Hive HBase Chukwa Map Zoo HDFS Reduce Keeper Core

4. • MapReduce – Mapper/Reducer •

5. MapReduce • WordCount • • – Mapper/Reducer Job ⾏行行 – InputFormat/OutputFormat ⽅方 – HDFS(FileSystem) – Writable ⽅方

6. WordCount • Hadoop Hello World • API (org.apache.hadoop.mapreduce) • API

7. Grep • grep – grepJob/sortJob 2 ⾏行行 – JobConf/Mapper/Reducer ⽅方 – Mapper RegexMapper ⾏行行 <Text, Long> SequenceFileFormat – sortJob – ⼒力力 –

8. Grep - • JobConf • Mapper • Reducer

9. o.a.hadoop.mapred.JobConf • – mapred-default.xml – conf/mapred-site.xml – XML ⾝身 DOM – ⾃自⽬目⼿手 – ⼦子 • JobConf child = new JobConf( Conf, jar );

10. mapred-site.xml <configuration> <!– --> <property> <key>mapred.job.tracker</key> <value>your-site:9001</value> </property> </configuration>

11. o.a.hadoop.mapred.Mapper • Mapper • InputSplit Mapper • MapTask/MapRunner • map(KEY, VALUE, COLLECTOR, REPORTER) – KEY:Map VALUE:Map – COLLECTOR: – REPORTER: API • MapReduceBase

12. o.a.hadoop.mapred.MapTask • Map • initiazlize (Task Reducer ) – ⽣生 – (o.a.h.mapred.TaskStatus.State) • RUNNING, SUCCEEDED, FAILED, UNASSIGNED, KILLED, COMMIT_PENDING, FAILED_UNCLEAN, KILLED_UNCLEAN – OutputCommiter ⽣生 • Task ⼒力力⾏行行 • ⼒力力 – mapred.work.output.dir

13. o.a.h.mapred.MapTask cont • run runOldMapper • JobClient InputSplit • RecordReader

14. o.a.h.mapred.MapTask cont2 • Reduce – spill (* ) • $mapred.local.dir/taskTracker/jobcache/$ {taskid}/output/spill${spillNumber}.out – Reducer ⼒力力 • Combiner min.num.spills.for.combine combiner – RecordWriter ⼒力力 • MapRunner

15. o.a.h.mapred.MapRunner • MapRunnable – mapred.map.runner.class – Hadoop PipeMapRunner – Map MultiThreadedMapRunner

16. o.a.h.mapred.MapRunner cont • run(RecordReader, OutputCollector, Reporter) – RecordReader: InputFormat Split Reader(InputFormat/RecordReader ) • – RecordReader – ⾝身 –

17. MapTask MapRunner Mapper Record Output Reader Collector Input Split⽣生 Spill & run createKey() SpillThread createValue() next(key, value) EOF Map(key, value, Spill outputCollector, reporter)

18. m(_ _)m

19. • Mapper – JobConf – Mapper/MapRunner/MapTask • – Reducer • Reducer ⾏行行 • Reducer ⾏行行 – InputFormat/RecordReader

20. o.a.h.mapred.Reducer • Reducer • InputSplit Mapper • ReduceTask/ReduceRunner • reduce(KEY, Iterator<VALUE>, COLLECTOR, REPORTER) – KEY: Iterator<VALUE>: – COLLECTOR: – REPORTER: API • MapReduceBase

21. o.a.h.mapred.ReduceTask • SHUFFLE • ReduceTask.ReduceCopier – fetchOutputs( Merger.MergeQueue) • Map x mapred.reduce.parallel.copies – MapOutputCopier • Map ⾏行行 LocalFSMerger • ⾏行行 InMemFSMergeThread • GetMapEventsThread – Map – < , MapOutputLocation(taskId, host, httpUrl)> • ⼀一 TaskTracker ⼯工

22. o.a.h.mapred.ReduceTask • run(RecordReader, OutputCollector, Reporter) • SORT – Memory, disk ⽣生 • RowKeyValueItetator – Reducer ⽣生 – RecordWriter ⽣生 – ReduceValuesIterator ⾏行行

サンプルから見るMapReduceコード

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to サンプルから見るMapReduceコード

Similar to サンプルから見るMapReduceコード (20)

More from Shinpei Ohtani

More from Shinpei Ohtani (17)

Recently uploaded

Recently uploaded (20)

サンプルから見るMapReduceコード