当前位置: 移动技术网 > IT编程>数据库>其他数据库 > 零基础大数据新手学习路线教程

零基础大数据新手学习路线教程

2019年06月04日  | 移动技术网IT编程  | 我要评论
大数据~数据挖掘,越来越火,90%的企业都在运用或者都想要利用大数据为其带来更便利的服务,从而大数据高端软件类人才可谓供不应求。那么零基础如何学好大数据? ...

大数据~数据挖掘,越来越火,90%的企业都在运用或者都想要利用大数据为其带来更便利的服务,从而大数据高端软件类人才可谓供不应求。

如何学好大数据?

第一阶段:大数据新手入门系统教程java+mysql+关系型数据库+阿里巴巴《码出高效》编码规约

知识点

一.java基础入门:java编程入门:java编程初体验,java运行机制;

java语法基础:java程序的组织形式与命名规则,变量类型和定义,表达式和运算符;

程序的流程结构:分支结构,循环结构;函授:函数的定义,函数调用,函数递归定义和调用;

数组:数组基本常识,数组的操作,二维数组的基本定义和使用;

java类和对象:类和对象的概念,类的定义和对象的创建;面向对象的特征:封装的概念和实现,继承,多态;

三个修饰符:final修饰符及作用,static修饰符,abstract修饰符;接口:接口的定义,接口的实现;

设计模式与面向对象设计原则:面向对象的设计原则,设计模式及分类,常见的设计模式实现;

object类和包装类:object类,包装类及其使用;字符串的处理:字符串类string,字符串拼接;

java中常用的工具类:日期类,math类的使用,random类的使用,java md5和加解密;

java的内部类:成员内部类,静态内部类,局部内部类的定义和使用,匿名内部类;

集合:collection接口,list接口,set接口,map接口,其他集合接口和类;java泛型:泛型的介绍和产生的原因;

java异常:异常的概念和异常类的层次结构,异常处理的分类,异常处理方式,自定义异常;

java文件与i/o流(上):file类,字节流,输入输出字符流;(下):randomaccessfile类,java对象读写;

java多线程上:线程和线程类,线程的创建,线程的状态和调度,线程的状态变化;

java多线程下:线程同步与共享,多线程协作,线程并发编程新api;

java的新特性:java注释:注解的概念和annotation接口,元注解,自定义注解。

枚举:enum关键字和rnum类。

java8新特性:使用jdk8编写接口的默认方法,使用jdk8的lambda表达式,使用jdk8的函数式接口;

mysql入门安装及使用,mysql的数据类型;sql入门:ddl,dml,drl,dcl:关联查询,子查询

二.关系型数据库:什么是数据库,什么是关系型数据库,表的关联,约束,mysql的安装及配置,

mysql的数据类型,数据库结构定义ddl,数据操纵语言dml,数据查询语言drl,数据访问dcl;

mysql关联查询:笛卡尔积,关联条件,交叉连接,内连接,外连接,自链接

三,阿里巴巴《码出高效》编码规约:命名,定义,格式,oop规约,集合处理,并发处理,控制语句,注释规约;

阿里巴巴《码出高效》数据库规约:建表规约,索引规约,sql语句,orm映射

实战项目电商大数据从零搭建包含cdh,hdp,开源搭建等三种搭建方式

广告流量的实施统计,基于用户兴趣的商品推荐系统

基于als的协同过滤推荐,基于购买行为的商品推荐

适合人群新手、小白,转行人员,想学习大数据,基础不牢固

 

在学习大数据的过程当中有遇见任何问题,可以加入我的java/大数据交流学习秋秋qun:732308174,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习大数据有任何问题(学习方法,学习效率,如何就业),可以随时来咨询我

第二阶段:linux+hadoop系统离线计算处理模块+大数据分布式弹性搜索引擎elasticsearch(es)

知识点

linux系统的实战与应用:linux简介,linux的分类,linux的常用版本,虚拟机安装,
linux安装linux目录结构,linux常用命令行,linux的权限命令,linux的用户操作,
ssh免密登录设置,linux网络配置,linux远程工具的使用,安装jdk
项目实战:centos系统操作、安装linux系统企业常用软件、熟悉linux环境下编程
hadoop离线计算处理模块:apache hadoop的体系结构,hadoop2.x,eclipse配置设置
hadoop应用案例分析,hadoop应用案例分析,hadoop数据压缩
实验环境,yarn分布式管理平台,hue智能分析管理平台
cdh大数据平台管理工具,ooize工作流任务调度引擎
hive数据仓库,pig解析大数据高级过程语言,hbase分布式的开源数据库
zookeeper分布系统的可靠协调系统:zookeeper功能与应用,集群分配原理,命令行客户端,
zookeeper集群自动启动脚本,java客户端,分布式应用系统服务器的上下线动态感知程序的开发,
zookeeper客户端线程的属性-守护线程,分布式共享锁的逻辑
flume数据采集框架:flume流程模型简介,flume安装,flume官网案例,
flume企业级案例一/二/三/四/五;flume监控
azkaban任务调度工具:shell脚本的使用,mapreduce的az使用,关联job的依赖,
hive的az使用,hdfs的az使用
sqoop高效传输批量数据的工具,zookeeper分布式系统的可靠协调系统
流量汇总程序开发,combine案例,inputformat案例,mapjoin,reducejoin
hdfs小文件优化,mapreduce优化,分布式共享锁的逻辑,hive的窗口函数,数据倾斜
大数据分布式弹性搜索引擎elasticsearch:什么是搜索;数据库搜索;什么是elasticsearch;
elasticsearch适用场景;elasticsearch特点;elasticsearch核心概念:近实时;cluster(集群);
cluster(集群);node节点;index(索引-数据库);type(类型-表);documentdocument(文档-行);
field(字段-列);mapping(映射-约束);elasticsearch与数据库的类比;
elasticsearch存入数据和搜索数据机制;elasticsearch分布式搭建;
elasticsearch java api操作:操作环境准备,获取transport client,创建索引,删除索引,删除索引,
源数据json串,源数据map方式添加json,源数据es构建器添加json,单个索引,多个索引,update,upsert,
preparedelete,条件查询querybuilder,查询所有(matchallquery),字段分词查询(querystringquery),通配符查询(wildccardquery),模糊查询(fuzzy)
实战项目
电商大数据从零搭建包含cdh,hdp,开源搭建等三种搭建方式
广告流量的实施统计,基于用户兴趣的商品推荐系统
基于als的协同过滤推荐,基于购买行为的商品推荐


第三阶段:面向大厂、国际化开发人员git、github实战应用+docker应用引擎
知识点

一.分布式版本控制系统git、github项目托管平台的实战与应用
git分布式控制的实战与应用:git简史和介绍;git在win,mac,centos安装和配置;
git本地库,暂存区,本地库名词解释;git初始化,代码更新,提交,回退,文件比较等操作;
git branch checkout等分支操作;git rebase,merge区别;代码回滚revert,reset;
面向大厂,国际化开发人员github的实战应用:创建github账户,以及添加ssh配置;
远程库拉取,更新,代码合并;向开源项目提交pull request和patch;
git tag 和release等操作;在idea工具向github提交代码;
掌握大公司代码开发流程;掌握版本控制的基础操作,历史回滚,分支操作代码同步;
围绕pull request来展开的团队内部协作流程和开源项目贡献流程;
github具体技巧,用lssues进行项目讨论;
合并开源社区的pr(例如spark的pull request);搭建内部的代码提交平台gitlab;
 
适合人群
如果想在大公司做开发,而且有目标做自己的开源项目并向其他开源项目提交代码,那么必须掌握git和github,即是 这些你都不想,那么如果你想coding方面长远发展,掌握git会助你更上一层楼。
 
以下企业正在使用git及github
拉勾网、keep、快如科技、字节跳动、去哪儿网、奇虎360金融、美团点评、知乎、京东集团、汽车之家、小米、百度、宜信、瓜子二手车直卖网、滴滴出行、爱奇艺、陌陌、搜狐集团、七牛云、好未来、马蜂窝、阿里巴巴-高德、熊猫直播、逻辑思维、饿了么、新浪网、新浪微博等.
 
二.大数据docker容器化从入门到实战开发
docker从无到有的实战应用:为什么要使用docker?docker基本组成概念;docker安装;
docker获取,创建,导入,保存,删除镜像;docker其他重要命令介绍与操作;docker单机容器内部互联;
数据卷容器备份,恢复,迁移;docker容器绑定外部ip和端口;docker阿里云加速镜像配置;
docker及dockerfile搭建镜像,私有仓库,集群:dockerfile基本介绍;dockerfile中的重要命令介绍和使用;
实战dockerfile构建spark,hadoop镜像;docker搭建私有仓库;docker跨主机互联(方式1):路由;
(方式2):flannel+etcd;docker-compose介绍;docker-compose测试,生产,开发环境构建;
docker-compose搭建spark kafka集群;提交代码测试集群;docker的高级实战项目应用:
docker-compose搭建web服务器和nginx;docker进阶之缩减容器大小;docker进阶之cache机制;
docker进阶之镜像内部窥探;docker进阶之logs;docker可视化监控平台搭建;docker搭建gitlab;
 
学完docker的收获
docker容器为什么这么火?docker容器应用场景?docker容器企业应用案列?怎么建设docker容器基础架构?生产环境使用docker正确姿势?搭建私有仓库?使用docker搭建hadoop,spark,kafka等集群. 首先从入门教你安装docker,接着学习docker核心功能:例如镜像,容器,网络等知识点。再接着学如何定制化容器镜像并使用harbor统一管理容器镜像,最后图形管理和容器监控。均以更佳实践讲解,确保实用性,实战性。
 
适用人群
docker技术已经成为大数据工程师,运维工程师,开发工程师,测试工程师,架构师职位必备的专业技能之一,特别是解决开发人员环境部署,部署升级等问题,非常有必要深入学习下,提升职业竞争力
 
以下企业正在使用dcker
新浪网、新浪微博、百度、小米、搜狐集团、爱奇艺、360企业安全、滴滴出行、今日头条、抖音、58到家、京东集团、搜狗、宜信、金山云、联想集团、国美控股集团、美团点评、马蜂窝、快手、汽车之家、创新工场ai工程院、拉勾网、face++、知乎、新东方、好未来、人人网等。
 
实战项目
电商大数据从零搭建包含cdh,hdp,开源搭建等三种搭建方式
广告流量的实施统计,基于用户兴趣的商品推荐系统
基于als的协同过滤推荐,基于购买行为的商品推荐


第四阶段:storm实时计算处理模块
知识点

组件模块,redis缓存中间件,开发任务的主程序设计
storm实时计算简介,图形解释,集群搭建,核心组件,系统架构,常用命令操作
storm-wordcount分析,开发wordcount的spout组件和bolt组件
storm的内容大纲,技术角度详细讲解,工程部署,单机和集群开发
storm任务提交流程,启动流程,设置参数,内部通信
storm与其他中间件集成api,开发任务的主程序设计
 
实战项目
地区销售额需求分析和架构设计,图表秒级无刷新实时展示
spout融合kafka consumer及线程安全测试
highcharts图表开发一及web端架构设计


第五阶段:flink新一代计算引擎
知识点

flink介绍,flink架构,企业任务提交,flink无界数据集,
flink-datasource,jar包任务的提交,flink有界数据集,
flink-sink,ssl设置,flink执行模型,flink集群安装,flink运行状况监控,
flink特点,flink的ui界面使用,flink的文件系统的支持,
flink流计算模型,flink-workcount,flink的ha
 
实战项目
flink企业应用阶段性项目
flink处理大批量数据架构阶段性
监控维基百科的编辑日志项目


第六阶段:大数据spark内存计算架构+高并发高吞吐架构设计
知识点

1.kafka消息队列模块:kafka介绍与构架原理,kafka安装部署,kafka生产者与消费者及写入流程
kafka消费流程,kafka-api编写,kafka producerapi,kafka拦截器api,kafka streamsapi
2.scala语言:scala基础语法,scala函数式编程,scala数组,scala集合,scala单机版wordcount,
面向对象,actor编程,akka编程,rpc框架,隐式转换
3.spark内存计算模型详解:spark介绍与集群安装,执行spark程序,spark-wordcount编写,
spark算子rdd,rdd高级算子,潭州课堂更受欢迎课堂案列,潭州课堂根据学科过滤学院,partition分区,
ip归属地查找案列,spark操作mysql的api,spark提交任务流程,rdd缓存机制,rdd的checkpoint机制,
spark中的stage与依赖的划分,sparksql,sparkstreaming,spark-flume整合,spark-kafka整合
实战项目

数据分析案例;sparksql企业级案例;
sparkstreaming企业级案例;sparkrdd企业级使用;
flume采集数据到spark端数据处理案例;
会这些东西你就成为一个专业的大数据开发工程师了,月薪2w都是小毛毛雨

如您对本文有疑问或者有任何想说的,请 点击进行留言回复,万千网友为您解惑!

相关文章:

验证码:
移动技术网