当前位置：移动技术网 > IT编程>数据库>其他数据库 > 【赵强老师】搭建Hadoop环境

【赵强老师】搭建Hadoop环境

2020年04月04日 | 移动技术网IT编程 | 我要评论

说明：这里我们以本地模式和伪分布模式伪列，为大家介绍如何搭建hadoop环境。有了这个基础，大家可以自行搭建hadoop的全分布模式。

需要使用的安装介质：

hadoop-2.7.3.tar.gz
jdk-8u181-linux-x64.tar.gz
rhel-server-7.4-x86_64-dvd.iso

一、安装前的准备工作

安装好redhat linux 7.4（安装包rhel-server-7.4-x86_64-dvd.iso），并在linux上创建tools和training两个目录

关闭防火墙，执行下面的命令

systemctl stop firewalld.service
systemctl disable firewalld.service

配置主机名，使用vi编辑器编辑文件/etc/hosts，输入以下内容

bigdata111	192.168.157.111

配置免密码登录，在命令行中输入下面的命令

ssh-keygen -t rsa
ssh-copy-id -i .ssh/id_rsa.pub root@bigdata111

二、安装jdk

通过ftp工具将jdk-8u181-linux-x64.tar.gz和hadoop-2.7.3.tar.gz上传到linux的/root/tools目录

在xshell中，解压jdk-8u181-linux-x64.tar.gz，执行下面的命令

tar -zxvf jdk-8u181-linux-x64.tar.gz -c /root/training/

设置java的环境变量，使用vi编辑器编辑~/.bash_profile文件。执行下面的命令

vi /root/.bash_profile

在vi编辑器中，输入以下内容

java_home=/root/training/jdk1.8.0_181
export java_home

path=$java_home/bin:$path
export path

生效环境变量，执行下面的命令

source /root/.bash_profile

输入下图中，红框中的命令验证java环境

三、解压hadoop，并设置环境变量

执行下面的命令，解压hadoop-2.7.3.tar.gz

tar -zxvf hadoop-2.7.3.tar.gz -c ~/training/

设置hadoop的环境变量，编辑~/.bash_profile文件，并输入以下内容

hadoop_home=/root/training/hadoop-2.7.3
export hadoop_home

path=$hadoop_home/bin:$hadoop_home/sbin:$path
export path

生效环境变量

source ~/.bash_profile

四、搭建hadoop的本地模式

进入目录/root/training/hadoop-2.7.3/etc/hadoop
使用vi编辑器编辑文件：hadoop-env.sh
修改java_home

export java_home=/root/training/jdk1.8.0_181

测试hadoop的本地模式，执行mapreduce程序。准备测试数据：vi ~/temp/data.txt

输入下面的数据，并保存退出

进入目录：/root/training/hadoop-2.7.3/share/hadoop/mapreduce

执行wordcount任务

hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /root/temp /root/output/wc

根据下图的命令，查看输出结果

五、搭建hadoop的伪分布模式

首先，搭建好hadoop的本地模式
创建目录：/root/training/hadoop-2.7.3/tmp

mkdir /root/training/hadoop-2.7.3/tmp

进入目录：/root/training/hadoop-2.7.3/etc/hadoop

cd /root/training/hadoop-2.7.3/etc/hadoop

修改hdfs-site.xml

<property>
	<name>dfs.replication</name>
	<value>1</value>
</property>

修改core-site.xml

<!--配置namenode的地址-->
<!--9000是rpc通信的端口-->
<property>
	<name>fs.defaultfs</name>
	<value>hdfs://bigdata111:9000</value>
</property>

<!--hdfs对应的操作系统目录-->
<!--默认值是linux的tmp目录-->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/root/training/hadoop-2.7.3/tmp</value>
</property>

修改mapred-site.xml（注意：这个文件默认没有）

<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

修改yarn-site.xml

<!--配置resourcemanager的地址-->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>bigdata111</value>
</property>

<!--mapreduce运行的方式是洗牌-->
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>

格式化namenode

hdfs namenode -format

启动hadoop

start-all.sh

访问web console

http://192.168.157.111:50070
http://192.168.157.111:8088

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]
字符串相似度处理函数

oracle里面查比如存储过程里面与表SALES有关jobs: SELECT * FROM (SELECT a.name,upper(b.what)AS... [阅读全文]
如何在 HBase Shell 命令行正常查看十六进制编码的中文？哈哈~

今天比较开心，只想哈哈~哈哈哈~ 啥也不多说了，直接看示例吧！绝对比我口才好~ 哈哈！Get到了吗？好意思不帮我分享嘛~哈哈~ 转载请注明出处！欢迎关注... [阅读全文]
一小时搭建实时数据分析平台

实时数据分析门槛较高，我们如何用极少的开发工作就完成实时数据平台的搭建，做出炫酷的图表呢？如何快速的搭建实时数据分析平台，首先我们需要实时数据的接入端... [阅读全文]
Kylin on Parquet 介绍和快速上手

Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟，但是存在着一定的局限性。因此，Kyligence 推出了 K... [阅读全文]