当前位置：移动技术网 > IT编程>数据库>其他数据库 > Hadoop系列002-从Hadoop框架讨论大数据生态

Hadoop系列002-从Hadoop框架讨论大数据生态

2018年12月01日 | 移动技术网IT编程 | 我要评论

本人微信公众号，欢迎扫码关注！

从hadoop框架讨论大数据生态

1、hadoop是什么

1）hadoop是一个由apache基金会所开发的分布式系统基础架构

2）主要解决，海量数据的存储和海量数据的分析计算问题。

3）广义上来说，hadoop通常是指一个更广泛的概念——hadoop生态圈

2、hadoop发展历史

1）lucene--doug cutting开创的开源软件，用java书写代码，实现与google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎

2）2001年年底成为apache基金会的一个子项目

3）对于大数量的场景，lucene面对与google同样的困难

4）学习和模仿google解决这些问题的办法：微型版nutch

5）可以说google是hadoop的思想之源(google在大数据方面的三篇论文)

gfs --->hdfs
map-reduce --->mr
bigtable --->hbase

6）2003-2004年，google公开了部分gfs和mapreduce思想的细节，以此为基础doug cutting等人用了2年业余时间实现了dfs和mapreduce机制，使nutch性能飙升

7）2005 年hadoop 作为 lucene的子项目 nutch的一部分正式引入apache基金会。2006 年 3 月份，map-reduce和nutch distributed file system (ndfs) 分别被纳入称为 hadoop 的项目中

8）名字来源于doug cutting儿子的玩具大象

9）hadoop就此诞生并迅速发展，标志这云计算时代来临

3、hadoop三大发行版本

apache、cloudera、hortonworks

1）apache版本最原始（最基础）的版本，对于入门学习最好。

2）cloudera在大型互联网企业中用的较多。

2008年成立的cloudera是最早将hadoop商用的公司，为合作伙伴提供hadoop的商用解决方案，主要是包括支持、咨询服务、培训。
2009年hadoop的创始人doug cutting也加盟cloudera公司。cloudera产品主要为cdh，cloudera manager，cloudera support
cdh是cloudera的hadoop发行版，完全开源，比apache hadoop在兼容性，安全性，稳定性上有所增强
cloudera manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个hadoop集群，并对集群的节点及服务进行实时监控。cloudera support即是对hadoop的技术支持。
cloudera的标价为每年每个节点4000美元。cloudera开发并贡献了可实时处理大数据的impala项目。

3）hortonworks文档较好。

2011年成立的hortonworks是雅虎与硅谷风投公司benchmark capital合资组建。
公司成立之初就吸纳了大约25名至30名专门研究hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发hadoop，贡献了hadoop80%的代码。
雅虎工程副总裁、雅虎hadoop开发团队负责人eric baldeschwieler出任hortonworks的首席执行官。
hortonworks的主打产品是hortonworks data platform（hdp），也同样是100%开源的产品，hdp除常见的项目外还包括了ambari，一款开源的安装和管理系统。
hcatalog，一个元数据管理系统，hcatalog现已集成到facebook开源的hive中。hortonworks的stinger开创性的极大的优化了hive项目。hortonworks为入门提供了一个非常好的，易于使用的沙盒。
hortonworks开发了很多增强特性并提交至核心主干，这使得apache hadoop能够在包括window server和windows azure在内的microsoft windows平台上本地运行。定价以集群为基础，每10个节点每年为12500美元。

4、hadoop的优势

1）高可靠性：因为hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。

2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3）高效性：在mapreduce的思想下，hadoop是并行工作的，以加快任务处理速度。

4）高容错性：自动保存多份副本数据，并且能够自动将失败的任务重新分配。

5、hadoop组成

5.1 hdfs架构概述

1）namenode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的datanode等。

2）datanode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。

3）secondary namenode(2nn)：用来监控hdfs状态的辅助后台程序，每隔一段时间获取hdfs元数据的快照。

5.2 yarn架构概述

1）resourcemanager(rm)：处理客户端请求、启动/监控applicationmaster、监控nodemanager、资源分配与调度。

2）nodemanager(nm)：单个节点上的资源管理、处理来自resourcemanager的命令、处理来自applicationmaster的命令。

3）applicationmaster：数据切分、为应用程序申请资源，并分配给内部任务、任务监控与容错。

4）container：对任务运行环境的抽象，封装了cpu、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

5.3 mapreduce架构概述

mapreduce将计算过程分为两个阶段：map和reduce

1）map阶段并行处理输入数据

2）reduce阶段对map结果进行汇总

6、大数据技术生态体系

7、推荐系统框架图

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]
字符串相似度处理函数

oracle里面查比如存储过程里面与表SALES有关jobs: SELECT * FROM (SELECT a.name,upper(b.what)AS... [阅读全文]
如何在 HBase Shell 命令行正常查看十六进制编码的中文？哈哈~

今天比较开心，只想哈哈~哈哈哈~ 啥也不多说了，直接看示例吧！绝对比我口才好~ 哈哈！Get到了吗？好意思不帮我分享嘛~哈哈~ 转载请注明出处！欢迎关注... [阅读全文]
一小时搭建实时数据分析平台

实时数据分析门槛较高，我们如何用极少的开发工作就完成实时数据平台的搭建，做出炫酷的图表呢？如何快速的搭建实时数据分析平台，首先我们需要实时数据的接入端... [阅读全文]
Kylin on Parquet 介绍和快速上手

Apache Kylin on Apache HBase 方案经过长时间的发展已经比较成熟，但是存在着一定的局限性。因此，Kyligence 推出了 K... [阅读全文]