当前位置：移动技术网 > IT编程>数据库>其他数据库 > 大数据学习计划

大数据学习计划

2019年06月21日 | 移动技术网IT编程 | 我要评论

大数据如此火热的现在，想必许多小伙伴都想要加入这个行业。也是我们今天就要拿出收藏已久的大数据学习计划。帮助你不走弯路，迈向大数据

大数据应用离不开基础软件的支撑，且大部分大数据组件部署在 linux 操作系统上的用户空间，也有很多组件也借鉴了linux 操作系统的一些设计精髓，所以 linux 既是大数据的强力支撑，也是很多性能问题的支撑者。

同时数据库的相关知识也是必要的基础，熟悉 mysql 数据库的安装与部署，还有备份和恢复等都是重点。

所以在第一部分的学习中我们需要达到以下目标：

1、通过对 linux 操作系统体系结构、服务管理、包管理、ntp 协议时间服务器、关系型数据库理论和 mysql 数据库等相关知识的学习，

掌握大部分安装部署 hadoop 集群操作系统层面的技能，为后续搭建 hdoop 集群、对比 rdbms 与 nosql 数据库打基础。

2、通过对 linux 文件系统、（大数据学习群142974151】内核参数、内存结构、以及 java 虚拟机等相关知识的学习，为后续学习分布式文件系统， hadoop 集群优化扫清操作系统层面知识的障碍

hadoop 由许多元素构成。其最底部是hdfs，它存储 hadoop 集群中所有存储节点上的文件。hdfs(对于本文)的上一层是mapreduce 引擎，通过对hadoop分布式计算平台最核心的分布式文件系统hdfs、mapreduce处理过程，以及数据仓库工具hive和分布式数据库hbase的介绍，基本涵盖了hadoop分布式平台的所有技术核心。

还有flume是cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，flume支持在日志系统中定制各类数据发送方，用于收集数据。在大数据中也起到一定作用。

本模块通过学习hdfs，yarn(mapreduce)spark 等核心组件，了解hadoop 的基本运行框架。

所以在第二部分的学习中我们需要达到以下目标：

1、

搭建单节点模拟分布式集群，熟悉 hdfs 命令;

掌握 hdfs 体系结构，读写流程，能 dump hdfs 元数据文件;

理解 flume 组件架构，并能用 flume 向 hdfs 平台导入文本日志;

2、

搭建多节点、可扩展集群;

部署 hdfs ha 架构;

理解并实现 hadoop yarn 的多租户架构

掌握 zookeeper 组件原理;

掌握 hadoop 集群优化路径;

传统数据仓库在面对更大规模数据时显得力不从心，在寄希望于大数据平台时，mapreduce 编程门槛让很多数据分析师望而却步，而hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为mapreduce任务进行运行。其优点是学习成本低，大数据学习kou群74零零加【41三八yi】可以通过类sql语句快速实现简单的mapreduce统计，不必开发专门的mapreduce应用，十分适合数据仓库的统计分析。

本模块通过学习 hive、impala 等大数据 sql 分析组件，让用户将隐匿在泥沙之下的数据价值挖掘出来。

所以在第三部分的学习中我们需要达到以下目标：

1、

安装部署 hive;

理解 hive 架构及执行原理 ;

hive 的优化(分区、桶) ;

hive sql 语句优化;

hive 常见故障诊断;

在上个模块中，olap 类型的需求得到了很好的解决方案，即针对数据查询分析的应用。但是这些组件对于数据的随机删改并不擅长。针对此种 oltp 类型应用，大数据生态系统中有另外一类组件处理这样的问题，那就是 nosql 家族。这部分将介绍 nosql 的数据模型和分类，着重讲述最具代表的 hbase。

zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，，是hadoop和hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括:配置维护、名字服务、分布式同步、组服务等。在本部分也会涉及。

所以在第四部分的学习中我们需要达到以下目标：

理解hbase 体系结构水平扩展的优势; 部署 hbase ;

设计 hbase 表;

在这里我还是要推荐下我自己建的大数据学习交流qq裙： 142974151，裙里都是学大数据开发的，如果你正在学习大数据，欢迎你加入，大家都是软件开发党，不定期分享干货（只有大数据开发相关的），包括我自己整理的一份2019最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深入大数据的小伙伴

理解 zookeeper 在 hbase集群中的作用;

掌握 hbase schema 设计注意事项;

理解 hbase 协处理器;

掌握 hbase 备份恢复步骤;

sql 语句属于声明式编程语言，这种 relational 方式擅长处理结构化数据。大数据的数据来源种类繁多，数据类型多种多样，sql 并不能处理所有问题。所以需要用 procedural 方式，即编程方式处理复杂多变的数据类型和应用。本章介绍 mapreduce、spark编程模型，着重讲述利用 python 在 spark 平台做数据转换和分析。

所以在第五部分的学习中我们需要达到以下目标：

能指出 spark 组件的产生背景;

掌握 spark 与 rdd 的关系;

了解 rdd 使用场景，熟悉 rdd 操作; 使用 rdd 方法做日志分析;

理解 spark-on-yarn 运行原理;

掌握数据持久化方法。

理解 spark 共享变量及使用场景;

在程序中使用广播变量和累加器;

理解 spark sql 的产生的历史背景;

创建 dataframe 和 dataset;

使用 sparksql 关联结构数据与非机构化数据 ;

能够利用 spark 实现客户群的分类;

前面5部分学习完毕之后，对于大数据平台的大部分问题，相比大家都会有思路去解决了。系统稳定运行之后，就要考虑运行的好不好，快不快。本模块针对 hdfs 数据、hbase 数据、实时抓取数据加索引，以及 spark streaming 流式处理技术做重点介绍，为大数据处理提速

所以在第六部分的学习中我们需要达到以下目标：

. 理解 solr cloud 组件架构及原理;

掌握 mapreduce 对静态数据索引过程;

掌握 flume 对实时数据索引过程;

理解 hbase 索引实现原理-协处理器; 掌握 hbase lily 对 hbase 数据索引过程;

介绍 cloudera search

了解流式计算的基本概念及分类方式;

掌握 flume、kafka 组件的架构及原理;

用 flume、kafka、spark streaming 搭建简单的流式处理应用;

学会使用状态保持及滑动窗口等流式计算特性;

事物的原理和规律隐藏在纷繁杂乱的数据中，如何从数据中将他们挖掘出来服务生产生活，大数据的核心价值体现在此。本模块我们一起学习数据科学的数学基础、机器学习的算法。大数据学习kou群74零零加【41三八yi】因为spark 正在取代 mapreduce 成为大数据平台数据处理的全新引擎，它也使得在大数据环境下高效的运用数据科学成为可能，所以我们着重介绍基于 spark 的机器学习的实现，把握大数据的发展趋势，步入数据科学的殿堂。

所以在第七部分的学习中我们需要达到以下目标：

1、掌握数据科学的数据基础，掌握统计学基础知识。

2、掌握机器学习理论; 掌握推荐系统和决策系统原理

3、掌握 spark mllib 组件架构; 利用 spark mllib 实现推荐器; . 学会引用常用机器学习算法。

选修

1.大数据hadoop生态系统的组建大部分是java编写，但95%的企业是直接使用不会修改组建，所以培训课程包含冗长的java是不科学的。不过对于java能做到一点了解还是不错的。

2.web开发html及javascript，只是在大数据可视化阶段才会用到，并不是大数据课程的核心内容，所以有需要的同学再去学习吧。

3.r 语言具有丰富的统计方法，大多数人使用r语言是因为其具有强大的统计功能， r 语言内部包含了许多经典统计技术的环境。通过对 r 语言基础知识的学习，了解 r 数据分析的通用流程。同时学习r 语言在 spark 计算框架的基本使用方法，可以为实现更强大的数据分析打基础。

4.大数据时代需要数据开放，同时又需要保障敏感数据的安全。企业如何保障数据中心的安全性成为即将面临的重大课题，所以 hadoop 集群的安全机制可以学习一下。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

HBase Filter 过滤器之FamilyFilter详解

前言：本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用，并贴出了相关示例代码以供参考。FamilyF... [阅读全文]
流媒体与实时计算，Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免... [阅读全文]
Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345"... [阅读全文]
在一个千万级的数据库查寻中，如何提高查询效率？？？？

摸清数据产生量如何，如果是1钞钟1条记录，则一台车一天就有86400条记录，则建议如下： 1、每台车使用单独的表，程序内部使用CreateTable，动... [阅读全文]
Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]

网友评论


验证码：

大数据学习计划

2019年06月21日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论