当前位置：移动技术网 > IT编程>开发语言>Java > MapTask工作机制图文详解

MapTask工作机制图文详解

2019年07月19日 | 移动技术网IT编程 | 我要评论

maptask工作机制如图所示。

（1）read阶段：maptask通过用户编写的recordreader，从输入inputsplit中解析出一个个key/value。

（2）map阶段：该节点主要是将解析出的key/value交给用户编写map()函数处理，并产生一系列新的key/value。

（3）collect收集阶段：在用户编写map()函数中，当数据处理完成后，一般会调用outputcollector.collect()输出结果。在该函数内部，它会将生成的key/value分区（调用partitioner），并写入一个环形内存缓冲区中。

（4）spill阶段：即“溢写”，当环形缓冲区满后，mapreduce会将数据写到本地磁盘上，生成一个临时文件。需要注意的是，将数据写入本地磁盘之前，先要对数据进行一次本地排序，并在必要时对数据进行合并、压缩等操作。

溢写阶段详情：

步骤1：利用快速排序算法对缓存区内的数据进行排序，排序方式是，先按照分区编号partition进行排序，然后按照key进行排序。这样，经过排序后，数据以分区为单位聚集在一起，且同一分区内所有数据按照key有序。
步骤2：按照分区编号由小到大依次将每个分区中的数据写入任务工作目录下的临时文件output/spilln.out（n表示当前溢写次数）中。如果用户设置了combiner，则写入文件之前，对每个分区中的数据进行一次聚集操作。
步骤3：将分区数据的元信息写到内存索引数据结构spillrecord中，其中每个分区的元信息包括在临时文件中的偏移量、压缩前数据大小和压缩后数据大小。如果当前内存索引大小超过1mb，则将内存索引写到文件output/spilln.out.index中。

（5）combine阶段：当所有数据处理完成后，maptask对所有临时文件进行一次合并，以确保最终只会生成一个数据文件。

当所有数据处理完后，maptask会将所有临时文件合并成一个大文件，并保存到文件output/file.out中，同时生成相应的索引文件output/file.out.index。

在进行文件合并过程中，maptask以分区为单位进行合并。对于某个分区，它将采用多轮递归合并的方式。每轮合并io.sort.factor（默认10）个文件，并将产生的文件重新加入待合并列表中，对文件排序后，重复以上过程，直到最终得到一个大文件。

让每个maptask最终只生成一个数据文件，可避免同时打开大量文件和同时读取大量小文件产生的随机读取带来的开销。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对移动技术网的支持。如果你想了解更多相关内容请查看下面相关链接

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Logback配置文件这么写(TPS提高10倍)

通过阅读本篇文章将了解到1.日志输出到文件并根据level级别将日志分类保存到不同文件2.通过异步输出日志减少磁盘io提高性能3.异步输出日志的原理配置文件lo... [阅读全文]
基于Jmeter生成测试报告过程图解

相对于loadrunner，jmeter其实也是可以有测试报告产出的，虽然一般都不用（没有loadrunner的报告那么强大是一方面），还是顺手写一下吧，其实方... [阅读全文]
SpringBoot实现本地存储文件上传及提供HTTP访问服务的方法

笔者计划为大家介绍分布式文件系统，用于存储应用的图片、word、excel、pdf等文件。在开始介绍分布式文件系统之前，为大家介绍一下使用本机存储来存放文件资源... [阅读全文]
Java实现AES/CBC/PKCS7Padding加解密的方法

最近项目需要选择一套对称加密算法，来满足前后端之间的加解密操作。初步打算前端使用crypto-js来实现，后端使用java本身的加密算法实现,但遇到了一个问题：... [阅读全文]
Spring Boot自定义错误视图的方法详解

spring boot缺省错误视图解析器　　web应用在处理请求的过程中发生错误是非常常见的情况，springboot中为我们实现了一个错误视图解析器（defa... [阅读全文]
SpringBoot整合Spring Security的详细教程

好好学习，天天向上本文已收录至我的github仓库daydayup：github.com/robodlee/daydayup，欢迎star，更多文章请前往：目录... [阅读全文]
面试官：怎么做JDK8的垃圾收集器的调优(面试常问)

看着面试官真诚的眼神，心中暗想看起来年纪轻轻却提出如此直击灵魂的问题。擦了擦额头上汗，我稍微调整了一下紧张的情绪，对面试官说：在jdk8中有serial收集器、... [阅读全文]
IDEA 非常重要的一些设置项(一连串的问题差点让我重新用回 Eclipse)

开心一刻　　建筑行业内，我看过的最凶残笑话（it行业内好一致！）　　上联：一天晚上两个甲方三更半夜四处催图只好周五加班到周六早上七点画好八点传完九点上床睡觉十分... [阅读全文]
详解Springboot2.3集成Spring security 框架(原生集成)

0、pom<?xml version="1.0" encoding="utf-8"?><project xmlns="http... [阅读全文]
SpringBoot2.3集成ELK7.1.0的示例代码

最近想用elk做日志分析，所以先写了demo来实验一下！1、安装elk（elasticsearch+logstash+kibana），具体安装教程百度2、查看是... [阅读全文]

网友评论


验证码：

MapTask工作机制图文详解

2019年07月19日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论