Hadoop单元测试方法—使用和增强MRUnit

发表于:2013-12-10 11:14

字体: | 上一篇 | 下一篇 | 我要投稿

 作者:zxsted    来源:51Testing软件测试网采编

  前言
  hadoop的mapreduce提交到集群环境中出问题的定位是比较麻烦的,有时需要一遍遍的修改代码和打出日志来排查一个很小的问题,如果数据量大的话调试起来相当耗时间。因此有必要使用良好的单元测试手段来尽早的消除明显的bug(当然仅有单元测试是不够的,毕竟跟集群的运行环境还是不一样的)。
  然而做mapreduce的单元测试会有一些障碍,比如Map和Reduce一些参数对象是在运行时由hadoop框架传入的,例如OutputCollector、Reporter、InputSplit等。这就需要有Mock手段。最初写mapreduce单元测试的时候自己写了几个简单的Mock也基本能满足需要,后来发现MRUnit比我写的要好用所以研究了一下就采用了。MRUnit是专门为hadoop mapreduce写的单元测试框架,API简洁明了,简单实用。但也有一些薄弱的地方,比如不支持MultipleOutputs(很多情况下我们会用MultipleOutputs作为多文件输出,后面将介绍如何增强MRUnit使之支持MultipleOutputs)。
  MRUnit
  MRUnit针对不同测试对象分别使用以下几种Driver:
    MapDriver,针对单独的Map测试。
    ReduceDriver,针对单独的Reduce测试。
    MapReduceDriver,将Map和Reduce连贯起来测试。
    PipelineMapReduceDriver,将多个Map-Reduce pair贯串测试。
  MapDriver
  单独测试Map的例子,假设我们要计算一个卖家的平均发货速度。Map将搜集每一次发货的时间间隔。针对Map的测试,
//这是被测试的Map
private Map mapper;
private MapDriver<LongWritable, Text, Text, TimeInfo> mapDriver;
@Before
public void setUp() {
mapper = new Map();
mapDriver = new MapDriver<LongWritable, Text, Text, TimeInfo>();
}
@Test
public void testMap_timeFormat2() {
String sellerId = "444";
//模拟输入一行(withInput),假设从这行数据中我们可以获得卖家(sellerId)      //某一次时间间隔 为10小时.
//我们期望它输出sellerId为key,value为代表1次10小时的TimeInfo对象。          //(withOutput)
//如果输入数据经过Map计算后为期望的结果,那么测试通过。
Text mapInputValue = new Text("……");
mapDriver.withMapper(mapper)
.withInput(null, mapInputValue)
.withOutput(new Text(sellerId), new TimeInfo(1, 10))
.runTest();
}
31/3123>
《2023软件测试行业现状调查报告》独家发布~

关注51Testing

联系我们

快捷面板 站点地图 联系我们 广告服务 关于我们 站长统计 发展历程

法律顾问:上海兰迪律师事务所 项棋律师
版权所有 上海博为峰软件技术股份有限公司 Copyright©51testing.com 2003-2024
投诉及意见反馈:webmaster@51testing.com; 业务联系:service@51testing.com 021-64471599-8017

沪ICP备05003035号

沪公网安备 31010102002173号