当前位置：移动技术网 > IT编程>数据库>其他数据库 > Java实现MapReduce Wordcount案例

Java实现MapReduce Wordcount案例

2019年11月02日 | 移动技术网IT编程 | 我要评论

先改pom.xml：

<project xmlns="http://maven.apache.org/pom/4.0.0"
	xmlns:xsi="http://www.w3.org/2001/xmlschema-instance"
	xsi:schemalocation="http://maven.apache.org/pom/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
	<modelversion>4.0.0</modelversion>
	<groupid>com.mcq</groupid>
	<artifactid>mr-1101</artifactid>
	<version>0.0.1-snapshot</version>
	<dependencies>
		<dependency>
			<groupid>jdk.tools</groupid>
			<artifactid>jdk.tools</artifactid>
			<version>1.8</version>
			<scope>system</scope>
			<systempath>${java_home}/lib/tools.jar</systempath>
		</dependency>
		<dependency>
			<groupid>junit</groupid>
			<artifactid>junit</artifactid>
			<version>release</version>
		</dependency>
		<dependency>
			<groupid>org.apache.logging.log4j</groupid>
			<artifactid>log4j-core</artifactid>
			<version>2.8.2</version>
		</dependency>
		<dependency>
			<groupid>org.apache.hadoop</groupid>
			<artifactid>hadoop-common</artifactid>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupid>org.apache.hadoop</groupid>
			<artifactid>hadoop-client</artifactid>
			<version>2.7.2</version>
		</dependency>
		<dependency>
			<groupid>org.apache.hadoop</groupid>
			<artifactid>hadoop-hdfs</artifactid>
			<version>2.7.2</version>
		</dependency>
	</dependencies>
</project>

在resources文件夹下添加文件 log4j.properties：

log4j.rootlogger=info, stdout
log4j.appender.stdout=org.apache.log4j.consoleappender
log4j.appender.stdout.layout=org.apache.log4j.patternlayout
log4j.appender.stdout.layout.conversionpattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.fileappender
log4j.appender.logfile.file=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.patternlayout
log4j.appender.logfile.layout.conversionpattern=%d %p [%c] - %m%n

wordcountdriver.java：

package com.mcq;

import java.io.ioexception;

import org.apache.hadoop.conf.configuration;
import org.apache.hadoop.fs.path;
import org.apache.hadoop.io.intwritable;
import org.apache.hadoop.io.text;
import org.apache.hadoop.mapreduce.job;
import org.apache.hadoop.mapreduce.lib.input.fileinputformat;
import org.apache.hadoop.mapreduce.lib.output.fileoutputformat;

public class wordcountdriver{
	public static void main(string[] args) throws ioexception, classnotfoundexception, interruptedexception {
		system.out.println("hello");
		configuration conf=new configuration();
		//1.获取job对象
		job job=job.getinstance(conf);
		//2.设置jar存储位置
		job.setjarbyclass(wordcountdriver.class);
		//3.关联map和reduce类
		job.setmapperclass(wordcountmapper.class);
		job.setreducerclass(wordcountreducer.class);
		//4.设置mapper阶段输出数据的key和value类型
		job.setmapoutputkeyclass(text.class);
		job.setmapoutputvalueclass(intwritable.class);
		//5.设置最终输出的key和value类型
		job.setoutputkeyclass(text.class);
		job.setoutputvalueclass(intwritable.class);
		//6.设置输入路径和输出路径
		fileinputformat.setinputpaths(job, new path(args[0]));
		fileoutputformat.setoutputpath(job, new path(args[1]));
		//7.提交job
//		job.submit();
		job.waitforcompletion(true);
//		boolean res=job.waitforcompletion(true);//true表示打印结果
//		system.exit(res?0:1);
	}
}

wordcountmapper.java：

package com.mcq;

import java.io.ioexception;

import org.apache.hadoop.io.intwritable;
import org.apache.hadoop.io.longwritable;
import org.apache.hadoop.io.text;
import org.apache.hadoop.mapreduce.mapper;

//map阶段
//keyin:输入数据的key（偏移量，比如第一行是0~19，第二行是20~25），必须是longwritable
//valuein:输入数据的value（比如文本内容是字符串，那就填text）
//keyout:输出数据的key类型
//valueout:输出数据的值类型
public class wordcountmapper extends mapper<longwritable, text, text, intwritable>{
	intwritable v=new intwritable(1);
	text k = new text();
	@override
	protected void map(longwritable key, text value, mapper<longwritable, text, text, intwritable>.context context)
			throws ioexception, interruptedexception {
		// todo auto-generated method stub
		//1.获取一行
		string line=value.tostring();
		//2.切割单词
		string[] words=line.split(" ");
		//3.循环写出
		for(string word:words) {
			k.set(word);
			context.write(k, v);
		}
	}
}

wordcountreducer.java：

package com.mcq;

import java.io.ioexception;

import org.apache.hadoop.io.intwritable;
import org.apache.hadoop.io.text;
import org.apache.hadoop.mapreduce.reducer;

//keyin、valuein：map阶段输出的key和value类型
public class wordcountreducer extends reducer<text, intwritable, text, intwritable>{
	intwritable v=new intwritable();
	@override
	protected void reduce(text key, iterable<intwritable> values,
			reducer<text, intwritable, text, intwritable>.context context) throws ioexception, interruptedexception {
		// todo auto-generated method stub
		int sum=0;
		for(intwritable value:values) {
			sum+=value.get();
		}
		v.set(sum);
		context.write(key, v);
	}
}

在run configuration里加上参数e:/mrtest/in.txt e:/mrtest/out.txt

运行时遇到了个bug，参考https://blog.csdn.net/qq_40310148/article/details/86617512解决了

在集群上运行：

用maven打成jar包，需要添加一些打包依赖：

	<build>
		<plugins>
			<plugin>
				<artifactid>maven-compiler-plugin</artifactid>
				<version>2.3.2</version>
				<configuration>
					<source>1.8</source>
					<target>1.8</target>
				</configuration>
			</plugin>
			<plugin>
				<artifactid>maven-assembly-plugin </artifactid>
				<configuration>
					<descriptorrefs>
						<descriptorref>jar-with-dependencies</descriptorref>
					</descriptorrefs>
					<archive>
						<manifest>
							<mainclass>com.mcq.wordcountdriver</mainclass>
						</manifest>
					</archive>
				</configuration>
				<executions>
					<execution>
						<id>make-assembly</id>
						<phase>package</phase>
						<goals>
							<goal>single</goal>
						</goals>
					</execution>
				</executions>
			</plugin>
		</plugins>
	</build>

注意上面mainclass里要填驱动类的主类名，可以点击类名右键copy qualified name。

将程序打成jar包（具体操作：右键工程名run as maven install，然后target文件夹会产生两个jar包，我们把不用依赖的包拷贝到hadoop集群上，因为集群已经配好相关依赖了），上传到集群

输入以下命令运行

hadoop jar mr-1101-0.0.1-snapshot.jar com.mcq.wordcountdriver /xiaocao.txt /output

注意这里输入输出的路径是集群上的路径。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

HBase Filter 过滤器之FamilyFilter详解

前言：本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用，并贴出了相关示例代码以供参考。FamilyF... [阅读全文]
流媒体与实时计算，Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免... [阅读全文]
Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345"... [阅读全文]
在一个千万级的数据库查寻中，如何提高查询效率？？？？

摸清数据产生量如何，如果是1钞钟1条记录，则一台车一天就有86400条记录，则建议如下： 1、每台车使用单独的表，程序内部使用CreateTable，动... [阅读全文]
Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]

网友评论


验证码：

Java实现MapReduce Wordcount案例

2019年11月02日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论