Testing Hadoop jobs with MRUnit

Testing Hadoop jobs
with MRUnit

Boulder/Denver Hadoop Users Group
05.12.2010

© 2010 Eric Wendelin

Eric Wendelin
Hadooper @returnpath
Blog: eriwen.com
Twitter: @eriwen

What is MRUnit?

• Testing library for MapReduce
• Developed by Cloudera
• Easy integration between MapReduce
and standard testing tools (e.g. JUnit)

cloudera.com/hadoop-mrunit

Testing without MRUnit
• Write tests that create JobConf or
Configuration objects
• conf.set(‘mapred.job.tracker’, ‘local’)

• Developing new test input files stored
alongside MapReduce test code
• Lots of work to validate output files
• External file I/O makes tests slooooow

MRUnit makes testing
Hadoop jobs easier

Testing with MRUnit

• No external test input or output ﬁles
• Programmatically speciﬁed
• Less test harness code (but also perhaps
less control)
• Concise, fast tests

Example
class ExampleTest() {
private Example.MyMapper mapper
private Example.MyReducer reducer
private MapReduceDriver driver

@Before void setUp() {
mapper = new Example.MyMapper()
reducer = new Example.MyReducer()
driver = new MapReduceDriver(mapper, reducer)
}

@Test void testMapReduce() {
driver.withInput(new Text(‘a’), new Text(‘b’))
driver.withOutput(new Text(‘c’), new Text(‘d’))
driver.runTest()
}
}

Example
private MapReduceDriver driver

driver = new MapReduceDriver(mapper, reducer)
}

@Test void testMapReduce() {
.withOutput(new Text(‘c’), new Text(‘d’))
.runTest()
}
}

Test map and reduce
separately

private MapDriver driver

driver = new MapDriver(mapper)
}

@Test void testMap() {
driver.runTest()
}
}

private ReduceDriver driver

driver = new ReduceDriver(reducer)
}

@Test void testReduce() {
driver.withInput(new Text(‘a’),
[new Text(‘foo’), new Text(‘bar’)])
driver.runTest()
}
}

Counters!
driver.withInput(...)
driver.run()

def counters = driver.getCounters()

assertEquals(1, counters.findCounter
(‘foo’, ‘bar’).getValue())

Verifying logging
def messages = []
def appender = [
append: { messages.add(it) },
requiresLayout: { false }
] as AppenderSkeleton
Logger.getRootLogger().addAppender(appender)

driver.runTest()

assertTrue messages.find {
it.getLevel.toString() == ‘WARN’ &&
it.getMessage().contains(‘My err’) }

Logger.getRootLogger().removeAppender(appender)

Cool stuff I haven’t
tried...
• The PipelineMapReduceDriver - allows
testing a series of MapReduce passes
• Just call addMapReduce(mapper, reducer)
• Mock objects - MockReporter,
MockInputSplit, and MockOutputCollector

• Test combiners with
myMapReduceDriver.setCombiner(myCombiner)

shell$ ./myMapper.py < test.input |
sort | ./myReducer.py > actual.out

shell$ diff expected.out actual.out

runTest() does not
give meaningful
information on failure

Better to use run() and
then assert

driver.setInput(new Text(‘foo’),
new Text(‘bar’))

def output = driver.run()

assertEquals ‘baz’, output[0].first
assertEquals ‘jy’, output[0].second

Documentation is
severely lacking

runXxx() calls setup()
called for new Hadoop
API, but not old API

Tests are not executed
in a distributed way

In Summary, MRUnit...

• Makes testing your Hadoop jobs easier
• Abstracts away a lot of the boilerplate test
setup you need
• Has it’s problems
• but they are outweighed by the beneﬁts

Testing Hadoop jobs with MRUnit

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (14)

Similar to Testing Hadoop jobs with MRUnit

Similar to Testing Hadoop jobs with MRUnit (20)

Recently uploaded

Recently uploaded (20)

Testing Hadoop jobs with MRUnit

Editor's Notes