当前位置：移动技术网 > IT编程>软件设计>架构 > hadoop伪分布模式的配置和一些常用命令

hadoop伪分布模式的配置和一些常用命令

2019年10月29日 | 移动技术网IT编程 | 我要评论

大数据的发展历史

3v：volume、velocity、variety（结构化和非结构化数据）、value（价值密度低）

大数据带来的技术挑战

存储容量不断增加
获取有价值的信息的难度：搜索、广告、推荐
大容量、多类型、高时效的数据处理场景，使得从数据中获取有价值的信息变得非常困难

hadoop理论概述

hadoop发展简史

apache nutch项目，是一个开源网络搜索引擎
谷歌发表gfs，是hdfs的前身
谷歌发表了mapreduce分布式编程思想
nutch开源实现了mapreduce

hadoop简介

是apache软件基金会下的一个开源分布式计算平台
java语言，跨平台性
在分布式环境下提供了海量数据的处理能力
几乎所有厂商都围绕hadoop提供开发工具

hadoop核心

分布式文件系统hdfs
分布式计算mapreduce

hadoop特性

高可靠性
高效性
高可扩展性
高容错性
成本低
linux
支持多种编程语言

hadoop生态系统

hdfs：分布式文件系统
mapreduce：分布式并行编程模型
yarn：资源管理和调度器
tez运行在yarn之上的下一代hadoop查询处理框架，他会将很多的mr任务分析优化后构建一个邮箱无环图，保证最高的工作效率
hive：hadoop上的数据仓库
hbase：非关系型分布式数据库
pig：基于hadoop的大规模数据分析平台
sqoop：用于在hadoop与传统数据库之间进行数据传递
oozie：工作流管理系统
zookeeper：提供分布式协调一致性服务
storm：流计算框架
flume：分布式海量日志采集、聚合和传输的系统
ambari：快速部署工具
kafka：分布式发布订阅消息系统，可以处理消费者规模的网站中所有动作流数据
spark：类似于hadoop mapreduce的通用并行框架

hadoop伪分布模式安装

主要流程

创建用户及用户组

sudo useradd -d /home/zhangyu -m zhangyu  
sudo passwd zhangyu
sudo usermod -g sudo zhangyu
su zhangyu
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys
ssh localhost

sudo mkdir /apps
sudo mkdir /data
sudo chown -r zhangyu:zhangyu /apps
sudo chown -r zhangyu:zhangyu /data

下载hadoop和java

mkdir -p /data/hadoop1
cd /data/hadoop1
wget java
wget hadoop
tar -xzvf jdk.tar.gz -c /apps
tar -xzvf hadoop.tar.gz -c /apps
cd /apps
mv jdk java
mv hadoop hadoop

添加上面两个到环境变量

sudo vim ~/.bashrc
export java_home=/apps/java
export path=java_home/bin:$path
export hadoop_home=/apps/hadoop
export path=hadoop_home/bin:$path
source ~/.bashrc
java
hadoop

修改hadoop配置文件

cd /apps/hadoop/etc/hadoop

vim hadoop-env.sh
export java_home=/apps/java

vim core-site.xml
//追加
<property>  
    <name>hadoop.tmp.dir</name>  //临时文件存储位置
    <value>/data/tmp/hadoop/tmp</value>  
</property>  
<property>  
    <name>fs.defaultfs</name>  //hdfs文件系统的地址
    <value>hdfs://localhost:9000</value>  
</property>  
mkdir -p /data/tmp/hadoop/tmp  

vim hdfs-site.xml
<property>  
    <name>dfs.namenode.name.dir</name>  //配置元数据信息存储位置
    <value>/data/tmp/hadoop/hdfs/name</value>  
</property>  
 <property>  
     <name>dfs.datanode.data.dir</name>  //具体数据存储位置
     <value>/data/tmp/hadoop/hdfs/data</value>  
 </property>  
 <property>  
     <name>dfs.replication</name>  //配置每个数据库备份数，要根据节点数决定
     <value>1</value>  
 </property>  
 <property>  
     <name>dfs.permissions.enabled</name>  //配置hdfs是否启用权限认证
     <value>false</value>  
 </property>

将集群中slave角色的节点的主机名添加进slaves文件中

vim slaves  //将集群中的slave角色的节点的主机名添加经slaves文件中
//目前只有一台节点，所以slaves文件内容只有localhost

格式化hdfs文件系统

hadoop namenode -format

输入jps查看hdfs相关进程是否启动

cd /apps/hadoop/sbin/
./start-dfs.sh
jps
hadoop fs -mkdir /myhadoop1
hadoop fs -ls -r /

配置mapreduce

cd /apps/hadoop/etc/hadoop/
mv mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
<property>  
    <name>mapreduce.framework.name</name>  //配置mapreduce任务所使用的框架
    <value>yarn</value>  
</property>

配置yarn并且测试

 vim yarn-site.xml
<property>  
    <name>yarn.nodemanager.aux-services</name>  //指定所用服务器
    <value>mapreduce_shuffle</value>  
</property>  
./start-yarn.sh

执行测试

cd /apps/hadoop/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.6.0-cdh5.4.5.jar pi 3 3

hadoop开发插件安装

mkdir -p /data/hadoop3
cd /data/hadoop3  
wget http://192.168.1.100:60000/allfiles/hadoop3/hadoop-eclipse-plugin-2.6.0.jar  
cp /data/hadoop3/hadoop-eclipse-plugin-2.6.0.jar /apps/eclipse/plugins/

进入图形界面

window->open perspective->other
选择map/reduce
点击condole右上角蓝色的大象添加相关配置

终端命令行

cd /apps/hadoop/sbin
./start-all.sh

hadoop常用命令

开启、关闭hadoop

cd /apps/hadoop/sbin
./start-all.sh
cd /apps/hadoop/sbin
./stop-all.sh

命令格式

hadoop fs -命令 目标
hadoop fs -ls /user

查看版本

hdfs version
hdfs dfsadmin -report  //查看系统状态

目录操作

hadoop fs -ls -r /  
hadoop fs -mkdir /input
hadoop fs -mkdir -p /test/test1/test2
hadoop fs -rm -rf /input

文件操作

hadoop fs -touchz test.txt
hadoop fs -put test.txt /input  //把本地文件上传到input文件加下
hadoop fs -get /input/test.txt /data //把hadoop集群中的test文件下载到data目录下
hadoop fs -cat /input/test.txt
hadoop fs -tail data.txt //同cat
hadoop fs -du -s /data.txt  //查看文件大小
hadoop fs -text /test1/data.txt  //将源文件输出为文本格式
hadoop fs -stat data.txt  //返回指定路径的统计信息
hadoop fs -chown root /data.txt  //改变文件所有者
hadoop fs -chmod 777 data.txt  //赋予文件777权限
hadoop fs -expunge  //清空回收站

模式切换

hdfs dfsadmin -safemode enter
hdfs dfsadmin -safemode leave

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

开篇：性能问题的现状

性能问题的现状性能优化？是不是感觉这个词很高大上？刚工作2、3年的程序员甚至觉得学此技能有点早？真的是这样吗？“... [阅读全文]
7.16总结（维信小程序开发）

今天正式要做一个体育场地预约系统，用微信小程序云开发，想用博客来做一个完整的项目进展记录，记录每天的成果与收获。... [阅读全文]
ExaGrid报告显示新冠疫情期间季度业绩仍表现强劲

新客户获取表现强劲，交易额达到六至七位数。马萨诸塞州马尔伯勒--(美国商业资讯)--分层备份存储领先提供商Exa... [阅读全文]
分布式架构系列 - 分布式事务 01（基础篇）

阅读全文，约 10分钟这是江帅帅的第027篇文章1、什么是事务？一般的事务，指的是本地事务，单机上的事务。事务提... [阅读全文]
开源消息队列QMQ的设计与实现理念

文章概要背景2012 年，随着公司业务的快速增长，公司当时的单体应用架构很难满足业务快速增长的要求，和其他... [阅读全文]
闪存的物理结构

闪存芯片从小到大依此是由：cell（单元）、page（页）、block（块）、plane（平面）、die（核心）... [阅读全文]
Saas、Paas、IaaS的区别

定义层面SaaS、PaaS、IaaS都是属于云计算服务的范畴，也就是云计算+服务。来自Wiki的解释为: Cou... [阅读全文]
pomelo源码解析之组件解析（四）

文章目录消息处理组件server过滤器globalFilterService、filterService处理消息... [阅读全文]
bootloader

NVM 驱动程序包括对 NVM 的擦除(erase)、编程(program)和校验(verify)等基本操作，也... [阅读全文]
荐 kafka中的AR、ISR、LEO、HW分别是什么

AR： Assigned Replicas的缩写，是每个partition下所有副本（replicas）的统称；... [阅读全文]