当前位置：移动技术网 > 科技>人工智能>云计算 > mapreduce：数据去重

mapreduce：数据去重

2018年03月10日 | 移动技术网科技 | 我要评论

mapreduce：数据去重

输入数据：
 1997-01-02 phone
 1998-10-01 window
 1997-01-02 phone
 2001-11-23 xbox
 2013-08-16 vr
 1997-01-02 phone
 2001-11-23 xbox
 2013-08-16 vr

需求：去除其中的重复元素，每个日期对应的商品只保存一份
 输出：
 1997-01-02 phone
 1998-10-01 window
 2001-11-23 xbox
 2013-08-16 vr
 思路：
 根据mapreduce特性，在reduce函数执行之前；会对相同key的数据经进行分组，将相同key的value放入一组（实际是一个集合）
 分组之后每个key都是唯一的。即shuffle的过程，就可以利用key达到数据去重的效果。
 这里将原数据不做任何处理，直接让其作为key原样输出,value输出类型为NullWritable;就能实现去重。

public class DistinctDataDemo {

	public static class MyMapper extends Mapper{
		@Override
		protected void map(LongWritable key, Text value,Context context)
				throws IOException, InterruptedException {
			//原数据作为key直接输出
			context.write(value,NullWritable.get());
		}
	}
	
	public static class MyReucer extends Reducer{
		@Override
		protected void reduce(Text key, Iterable value,
				Context context) throws IOException, InterruptedException{
			//原样输出
			context.write(key,NullWritable.get());
		}
	}
	
	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		//获取配置对象
		Configuration conf = new Configuration();
		//获取FileSystem对象
		FileSystem fs = FSUtil.getFS();
		//创建作业对象
		Job job = Job.getInstance(conf,"distinctdataDemo");
		
		//设置运行主类
		job.setJarByClass(DistinctDataDemo.class);
		
		//设置mapper参数
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(NullWritable.class);
		job.setMapperClass(MyMapper.class);
		
		//设置输入文件路径
		FileInputFormat.setInputPaths(job,new Path(args[0]));
		
		//设置reducer参数
		job.setReducerClass(MyReucer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(NullWritable.class);
		
		//设置输出文件路径
		Path outPath = new Path(args[1]);
		if(fs.exists(outPath)){
			//目录已存在，则删除
			fs.delete(outPath,true);
		}
		FileOutputFormat.setOutputPath(job,outPath);
		//提交作业
		boolean res = job.waitForCompletion(true);
		System.exit(res ? 0 : -1);
    }

}

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

云计算将带来商业模式革命概念股“千里挑一”

　　国金证券通信行业首席分析师陈运红：云计算将带来商业模式革命概念股“千里挑一” 　　江怡曼　　提到云计... [阅读全文]
虚拟化和云计算路向何方？

　　我们正处于一个有趣的历史节点。VMware公司的成功源于我们拥有的非常引人注目的价值主张——解决客户端-服务器时代的不... [阅读全文]
企业级虚拟化平台是云计算必由之路

　　6月20日，IBM新一代企业基础云平台研讨会在北京举行。IBM大中华区系统与科技部Power Systems高级产品经理谷建发表了主题演讲。谷... [阅读全文]
打造免费云平台十大与云有关开源项目

　　开源项目由于其开放、免费、自由灵活等特点深受广大开发者的喜爱。近年涌现了很多开源免费的东西深受欢迎。而云计算则是近段时间最热的科技名词，云计算... [阅读全文]
Oracle刘松：客户体验管理与社会化云服务平台

10月26日消息，由工信部信息化推进司指导，中国计算机用户协会与中国网上银行促进联盟主办的“2012年网银联盟大会暨电子银行创新颁奖典... [阅读全文]
胡斌：做大数据最终是要为公司带来变化的

10月24日“中国TMT国际商会月度英雄汇”在北京召开。胡斌在圆桌对话“大数据时代的机遇与挑战”中... [阅读全文]
确保云安全的五种服务器配置方法

　　越来越多的数据中心已经搬到了各种各样的云上，服务器配置是必须考虑的问题。　　云计算将是收缩数据中心的关键，显然这可能带来一些安全问题... [阅读全文]
跨入云计算时代传统服务器走将向何处？

　　云的出现，正在改变我们对于传统IT的观念认识。云并不像它的概念一样虚无缥缈，而是以各种形式出现在我们面前，而最让人耳熟能详的莫过于云存储和云计... [阅读全文]
解读透明计算：是云计算升级还是产业界革命

　　你知道云计算吗？不少读者可能会说，嗯，我听说过，但是具体是怎么定义还是不太了解。虽然概念上不是很明白，但起码云计算到现在已经是人尽皆知。不过就... [阅读全文]
十二大技巧保障云计算安全

　　1、确认现有的基础控制　　基础控制是企业安全理念的核心。它们包含了将近60个保护您企业最重要资产的安全控制。它们专注在确保云技术对您... [阅读全文]

网友评论


验证码：

mapreduce：数据去重

2018年03月10日 | 移动技术网科技 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论