当前位置：移动技术网 > IT编程>开发语言>Java > 004简单介绍WordCount，统计文本单词次数

004简单介绍WordCount，统计文本单词次数

2018年09月05日 | 移动技术网IT编程 | 我要评论

mapreduce简介

mapreduce是一种分布式计算模型,主要解决海量数据的计算问题。
mr有两个阶段组成：map和reduce，用户只需实现map()和reduce()两个函数，即可实现分布式计算。

mapreduce的原理图

mr执行的流程

2.mr原理图

根据代码简单了解mr。

package com.lj.mr;

import org.apache.hadoop.io.intwritable;
import org.apache.hadoop.io.longwritable;
import org.apache.hadoop.io.text;
import org.apache.hadoop.mapreduce.mapper;
import java.io.ioexception;

public class wcmapper extends mapper<longwritable, text, text, intwritable>  {
    @override
    protected void map(longwritable key, text value, context context) throws ioexception, interruptedexception {
        //super.map(key, value, context);
        string[] arr = value.tostring().split(" ");
        text keyout = new text();
        intwritable valueout = new intwritable();
        for(string s :arr){
            keyout.set(s);
            valueout.set(1);
            try {
                context.write(keyout,valueout);
            } catch (interruptedexception e) {
                e.printstacktrace();
            }
        }
    }
}

package com.lj.mr;

import org.apache.hadoop.io.intwritable;
import org.apache.hadoop.mapreduce.reducer;
import org.apache.hadoop.io.text;

import java.io.ioexception;

public class wcreducce extends reducer<text, intwritable, text, intwritable> {
    @override
    protected void reduce(text key, iterable<intwritable> values, context context) throws ioexception, interruptedexception {
        //super.reduce(key, values, context);
        int count = 0;
        for(intwritable iw:values){
             count = count + iw.get();
        }
        context.write(key,new intwritable(count));
    }
}

package com.lj.mr;

import org.apache.hadoop.conf.configuration;
import org.apache.hadoop.fs.path;
import org.apache.hadoop.io.intwritable;
import org.apache.hadoop.io.text;
import org.apache.hadoop.mapreduce.job;
import org.apache.hadoop.mapreduce.lib.input.fileinputformat;
import org.apache.hadoop.mapreduce.lib.input.textinputformat;
import org.apache.hadoop.mapreduce.lib.output.fileoutputformat;
import org.apache.log4j.basicconfigurator;


public class wcapp {
    public static void main(string[] args) {
        basicconfigurator.configure();

        configuration conf = new configuration();
        //此处为本地测试
        // conf.set("fs.defaultfs","file：///d://ittools");
        try {
            //单例模式
            job job = job.getinstance(conf);
            //任务作业名字
            job.setjobname("wcapp");
            //搜索类
            job.setjarbyclass(wcapp.class);
            //设置输入格式
            job.setinputformatclass(textinputformat.class);


            fileinputformat.addinputpath(job, new path(args[0]));
            fileoutputformat.setoutputpath(job, new path(args[1]));


            job.setmapperclass(wcmapper.class);
            job.setreducerclass(wcreducce.class);


            job.setnumreducetasks(1);
            job.setmapoutputkeyclass(text.class);
            job.setmapoutputvalueclass(intwritable.class);

            job.setoutputkeyclass(text.class);
            job.setoutputvalueclass(intwritable.class);
            job.waitforcompletion(false);
        } catch (exception e) {
            e.printstacktrace();
        }
    }
}

代码简单解析：

根据执行流程图我们不难发现，首先我们从mapper下手，然后着手reducer,而reducer的key(in),value(in)，肯定是mapper的key(out),value(out)，否则我们不难发现，一定会类型不匹配，直接报错。

map：就是将原本文字转换成（k,v），其中k就是word，v就是单词的出现的次数

shuffle：将相同的k排列一起

reduce：将相同的k的v相加

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

RecycleView 源码解析

ListView 能局部刷新吗？可以。。。 [阅读全文]
springboot 整合 Jpush 极光推送

产品简介：JPush 是经过考验的大规模 App 推送平台，每天推送消息数超过 5 亿条。开发者集成 SDK ... [阅读全文]
[杭电多校2020]第一场 1004 Distinct Sub-palindromes

Distinct Sub-palindromes题目链接：http://acm.hdu.edu.cn/showp... [阅读全文]
报错处理：java.lang.IllegalStateException: You need to use a Theme.AppCompat theme with this activity 

记录一个安卓报错的处理方法：java.lang.IllegalStateException: You need ... [阅读全文]
Swift -- 将本地生成的UIImage进行持久化保存（存到文件中fileManager.createFile）

//在相册或者拍照的代理方法中struct ImageSource { var img: UIImage ... [阅读全文]
Windows的Android studio安装教程

一、JDK安装1、JDK下载安装包下载地址：http://www.oracle.com/technetwor... [阅读全文]
Fragment的介绍以及加载详细说明

Fragment与Activity的区别1.Feagment是安装3.0之后才有的2.一个Activity可以运... [阅读全文]
Android Camera video数据流

在Android系统中，实现一个具有录像功能的应用程序只需要调用MediaRecorder的相应接口即可。下面简... [阅读全文]
SpringBoot +Dcloud个推成功案例复制即用

SpringBoot + Dcloud个推调用方法赋值的实体单推方法的实例部分群推的方法实例下面是工具方法类**... [阅读全文]
Jetpack Paging3分页库

Jetpack Paging3分页库简介分页库可帮助您一次加载和显示一小块数据。按需载入部分数据会减少网络带宽和... [阅读全文]

网友评论


验证码：

004简单介绍WordCount，统计文本单词次数

2018年09月05日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论