当前位置：移动技术网 > IT编程>开发语言>Java > shuffle的关键阶段sort(Map端和Reduce端)源码分析

shuffle的关键阶段sort(Map端和Reduce端)源码分析

2019年07月19日 | 移动技术网IT编程 | 我要评论

源码中有这样一段代码

1. map端排序获取的比较器

public rawcomparator getoutputkeycomparator() {
  // 获取mapreduce.job.output.key.comparator.class，必须是rawcomparator类型，如果没设置，是null
  class<? extends rawcomparator> theclass = getclass(
   jobcontext.key_comparator, null, rawcomparator.class);
  // 如果用户自定义了这个参数，那么实例化用户自定义的比较器
  if (theclass != null)
   return reflectionutils.newinstance(theclass, this);
  // 默认情况，用户是没用自定义这个参数
  // 判断map输出的key，是否是writablecomparable的子类
 //  如果是，调用当前类的内部的comparator!
  return writablecomparator.get(getmapoutputkeyclass().assubclass(writablecomparable.class), this);
 }

总结：如何对感兴趣的数据进行排序？

① 数据必须作为key

② 排序是框架自动排序，我们提供基于key的比较器，也就是comparator，必须是rawcomparator类型

a) 自定义类，实现rawcomparator，重写compare()

指定mapreduce.job.output.key.comparator.class为自定义的比较器类型

b）key实现writablecomparable(推荐)

③ 实质都是调用相关的comparato()方法，进行比较

2. reduce端进行分组的比较器

rawcomparator comparator = job.getoutputvaluegroupingcomparator();
// 获取mapreduce.job.output.group.comparator.class，必须是rawcomparator类型
// 如果没用设置，直接获取maptask排序使用的比较器
// 也是比较key
public rawcomparator getoutputvaluegroupingcomparator() {
  class<? extends rawcomparator> theclass = getclass(
   jobcontext.group_comparator_class, null, rawcomparator.class);
  if (theclass == null) {
   return getoutputkeycomparator();
  }
  // 如果设置了，就使用设置的比较器
  return reflectionutils.newinstance(theclass, this);
 }

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对移动技术网的支持。如果你想了解更多相关内容请查看下面相关链接

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

批量上传Maven仓库jar包到Nexus私服

批量上传Maven仓库jar包到Nexus私服1.先将本地maven/localrepository仓库打一个完... [阅读全文]
优惠最后1天:《操作系统*硬实时*深度剖析》在线课程

概况相信多数工程师们或多或少都对硬实时有一定的理解，但是仍然都其深入的实现机理不太了解。关于为什么有的操作系统可... [阅读全文]
编写shell脚本自动kill掉没有限制内存的jar包

背景因为Dev环境的内存只有64G，然后开发经常如下方式启动脚本。java -jar -Dspring.prof... [阅读全文]
Ubuntu安装GCC编译器

文章目录GCC简介安装步骤常见问题GCC简介通常所说的GCC是GUN Compiler Collection的简... [阅读全文]
荐嵌入式linux开发环境搭建（Docker版，基于iTop 4412开发板）

嵌入式linux开发环境搭建（Docker版，基于iTop 4412开发板）文章目录嵌入式linux开发环境搭建... [阅读全文]
关于项目打成jar包并发布到云服务器上

人狠话不多，社会你狗哥！！！直接来干货把项目达成jar包idea打包思路流程1. 找个idea中的终端窗口2. ... [阅读全文]
apache配置基于域名访问

编辑配置文件，注释掉directory文件，一共四个vim /etc/httpd/conf/httpd.conf... [阅读全文]
SpringBoot项目部署到服务器之 Liunx环境安装jdk详细步骤

一、CentOS7 安装JDK1.服务器安装JDK之前，先确保有没有默认安装JDK，执行以下命令进行检查java... [阅读全文]
荐【Linux】循序渐进学运维-服务篇-ssh服务入门

大家好，我是高胜寒，本文是Linux运维-循序渐进学运维-服务篇的第3篇文章文章目录前言1. 什么是SSH？2.... [阅读全文]
三星Galaxy Fold 2获得3C认证：支持双模5G

三星Galaxy Fold 2在7月3日通过了3C认证，认证信息显示其将支持5G网络，配备一个最高25W 的快充... [阅读全文]

网友评论


验证码：

shuffle的关键阶段sort(Map端和Reduce端)源码分析

2019年07月19日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论