当前位置: 移动技术网 > IT编程>数据库>其他数据库 > 大数据技术学习路线,有信心能学好的朋友,就开始吧

大数据技术学习路线,有信心能学好的朋友,就开始吧

2018年10月28日  | 移动技术网IT编程  | 我要评论
如果你看完有信心能坚持学习的话,那就当下开始行动吧! 一、大数据技术基础 1、linux操作基础 linux系统简介与安装 linux常用命令–文件操作 linux常用命令–用户管理与权限 linux常用命令–系统管理 linux常用命令–免密登陆配置与网络管理 linux上常用软件安装 linux ...

如果你看完有信心能坚持学习的话,那就当下开始行动吧!

一、大数据技术基础

1、linux操作基础

  • linux系统简介与安装
  • linux常用命令–文件操作
  • linux常用命令–用户管理与权限
  • linux常用命令–系统管理
  • linux常用命令–免密登陆配置与网络管理
  • linux上常用软件安装
  • linux本地yum源配置及yum软件安装
  • linux防火墙配置
  • linux高级文本处理命令cut、sed、awk
  • linux定时任务crontab

2、shell编程

  • shell编程–基本语法
  • shell编程–流程控制
  • shell编程–函数
  • shell编程–综合案例–自动化部署脚本
    大数据学习群142973723

3、内存数据库redis

  • redis和nosql简介
  • redis客户端连接
  • redis的string类型数据结构操作及应用-对象缓存
  • redis的list类型数据结构操作及应用案例-任务调度队列
  • redis的hash及set数据结构操作及应用案例-购物车
  • redis的sortedset数据结构操作及应用案例-排行榜

4、布式协调服务zookeeper

  • zookeeper简介及应用场景
  • zookeeper集群安装部署
  • zookeeper的数据节点与命令行操作
  • zookeeper的java客户端基本操作及事件监听
  • zookeeper核心机制及数据节点
  • zookeeper应用案例–分布式共享资源锁
  • zookeeper应用案例–服务器上下线动态感知
  • zookeeper的数据一致性原理及leader选举机制

5、java高级特性增强

  • java多线程基本知识
  • java同步关键词详解
  • java并发包线程池及在开源软件中的应用
  • java并发包消息队里及在开源软件中的应用
  • java jms技术
  • java动态代理反射

6、轻量级rpc框架开发

  • rpc原理学习
  • nio原理学习
  • netty常用api学习
  • 轻量级rpc框架需求分析及原理分析
  • 轻量级rpc框架开发

二、离线计算系统

1、hadoop快速入门

  • hadoop背景介绍
  • 分布式系统概述
  • 离线数据分析流程介绍
  • 集群搭建
  • 集群使用初步

2、hdfs增强

  • hdfs的概念和特性
  • hdfs的shell(命令行客户端)操作
  • hdfs的工作机制
  • namenode的工作机制
  • java的api操作
  • 案例1:开发shell采集脚本

3、mapreduce详解

  • 自定义hadoop的rpc框架
  • mapreduce编程规范及示例编写
  • mapreduce程序运行模式及debug方法
  • mapreduce程序运行模式的内在机理
  • mapreduce运算框架的主体工作流程
  • 自定义对象的序列化方法
  • mapreduce编程案例

4、mapreduce增强

  • mapreduce排序
  • 自定义partitioner
  • mapreduce的combiner
  • mapreduce工作机制详解

5、mapreduce实战

  • maptask并行度机制-文件切片
  • maptask并行度设置
  • 倒排索引
  • 共同好友

6、federation介绍和hive使用

  • hadoop的ha机制
  • ha集群的安装部署
  • 集群运维测试之datanode动态上下线
  • 集群运维测试之namenode状态切换管理
  • 集群运维测试之数据块的balance
  • ha下hdfs-api变化
  • hive简介
  • hive架构
  • hive安装部署
  • hvie初使用

7、hive增强和flume介绍

  • hql-ddl基本语法
  • hql-dml基本语法
  • hive的join
  • hive 参数配置
  • hive 自定义函数和transform
  • hive 执行hql的实例分析
  • hive最佳实践注意点
  • hive优化策略
  • hive实战案例
  • flume介绍
  • flume的安装部署
  • 案例:采集目录到hdfs
  • 案例:采集文件到hdfs

三、流式计算

1、storm从入门到精通

  • storm是什么
  • storm架构分析
  • storm架构分析
  • storm编程模型、tuple源码、并发度分析
  • storm wordcount案例及常用api分析
  • storm集群部署实战
  • storm+kafka+redis业务指标计算
  • storm源码下载编译
  • strom集群启动及源码分析
  • storm任务提交及源码分析
  • storm数据发送流程分析
  • storm通信机制分析
  • storm消息容错机制及源码分析
  • storm多stream项目分析
  • 编写自己的流式任务执行框架

2、storm上下游及架构集成

  • 消息队列是什么
  • kakfa核心组件
  • kafka集群部署实战及常用命令
  • kafka配置文件梳理
  • kakfa javaapi学习
  • kafka文件存储机制分析
  • redis基础及单机环境部署
  • redis数据结构及典型案例
  • flume快速入门
  • flume+kafka+storm+redis整合

四、内存计算体系spark

1、scala编程

  • scala编程介绍
  • scala相关软件安装
  • scala基础语法
  • scala方法和函数
  • scala函数式编程特点
  • scala数组和集合
  • scala编程练习(单机版wordcount)
  • scala面向对象
  • scala模式匹配
  • actor编程介绍
  • option和偏函数
  • 实战:actor的并发wordcount
  • 柯里化
  • 隐式转换

2、akka与rpc

  • akka并发编程框架
  • 实战:rpc编程实战

3、spark快速入门

  • spark介绍
  • spark环境搭建
  • rdd简介
  • rdd的转换和动作
  • 实战:rdd综合练习
  • rdd高级算子
  • 自定义partitioner
  • 实战:网站访问次数
  • 广播变量
  • 实战:根据ip计算归属地
  • 自定义排序
  • 利用jdbc rdd实现数据导入导出
  • worldcount执行流程详解

4、rdd详解

  • rdd依赖关系
  • rdd缓存机制
  • rdd的checkpoint检查点机制
  • spark任务执行过程分析
  • rdd的stage划分

5、spark-sql应用

  • spark-sql
  • spark结合hive
  • dataframe
  • 实战:spark-sql和dataframe案例

6、sparkstreaming应用实战

  • spark-streaming简介
  • spark-streaming编程
  • 实战:stagefulwordcount
  • flume结合spark streaming
  • kafka结合spark streaming
  • 窗口函数
  • elk技术栈介绍
  • elasticsearch安装和使用
  • storm架构分析
  • storm编程模型、tuple源码、并发度分析
  • storm wordcount案例及常用api分析

7、spark核心源码解析

  • spark源码编译
  • spark远程debug
  • spark任务提交行流程源码分析
  • spark通信流程源码分析
  • sparkcontext创建过程源码分析
  • driveractor和clientactor通信过程源码分析
  • worker启动executor过程源码分析
  • executor向driveractor注册过程源码分析
  • executor向driver注册过程源码分析
  • dagscheduler和taskscheduler源码分析
  • shuffle过程源码分析
  • task执行过程源码分析

五、机器学习算法

1、python及numpy库

  • 机器学习简介
  • 机器学习与python
  • python语言–快速入门
  • python语言–数据类型详解
  • python语言–流程控制语句
  • python语言–函数使用
  • python语言–模块和包
  • phthon语言–面向对象
  • python机器学习算法库–numpy
  • 机器学习必备数学知识–概率论

2、常用算法实现

  • knn分类算法–算法原理
  • knn分类算法–代码实现
  • knn分类算法–手写字识别案例
  • lineage回归分类算法–算法原理
  • lineage回归分类算法–算法实现及demo
  • 朴素贝叶斯分类算法–算法原理
  • 朴素贝叶斯分类算法–算法实现
  • 朴素贝叶斯分类算法–垃圾邮件识别应用案例
  • kmeans聚类算法–算法原理
  • kmeans聚类算法–算法实现
  • kmeans聚类算法–地理位置聚类应用
  • 决策树分类算法–算法原理
  • 决策树分类算法–算法实现

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,让我们一起携手,引领人工智能的未来。大数据学习群142973723

如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!

相关文章:

验证码:
移动技术网