当前位置：移动技术网 > IT编程>开发语言>Java > 米兜开始送书啦，活动持续21天

米兜开始送书啦，活动持续21天

2019年11月03日 | 移动技术网IT编程 | 我要评论

关注米兜java.md

压抑了这么久了，是时候来一啵活动了。

为了感谢朋友们一直以来的支持，今天米兜得到一位既是主编也是粉丝的支持，将赠送来自这位朋友编写的一本书籍《hive数据仓库企业级应用》。此书真心推荐朋友们阅读。

本次赠书活动规则：

第一阶段：11月2日-11月8日，将从点击本文在看且转发朋友圈的朋友中抽取一位，记得添加文末作者群哦，实体书包邮到家。

第二阶段：11月2日-11月15日，将从转发本文的朋友中，朋友圈点赞最多的朋友中抽取一位，记得添加文末作者群哦，实体书包邮到家。[如果点赞大于等于50的朋友多余5位，将抽出两位朋友]

第三阶段：11月8日-11月22日，将抽取两位朋友，记得添加文末作者群哦，实体书包邮到家。活动规则，待第一阶段结束后公布。

file

移动互联、电子商务、社交网络大大拓展了互联网的疆界和应用领域，我们正处在一个数据爆炸性增长的时代，大量的数据对人类的数据驾驭能力提出了新的挑战和机遇。就在这时，人们提出了大数据的思想，大数据是指那些超过传统数据库系统处理能力的数据。其数据规模和传输速度要求很高，或者其结构不适合原本的数据库系统。但是我们为了得到它其中的价值，就不得不使用一些技术手段去处理它。大数据分析常和云计算联系在一起，因为实时的大型数据集分析需要mapreduce一样的计算框架来向不同机架，甚至是不同数据中心中的电脑分配工作。正是由于hadoop中的mr框架才可以让人们处理tb级的数据。

file
file
file
file

正如上面的漫画，由于mapreduce框架只有专业的开发人员才可以使用，sql的人就没办法去使用该框架处理一些数据，因此人们发明了hive的组件，hive也是apache的顶级项目，它底层的计算引擎是mr（离线计算框架）或者是tez（基于hadoop yarn之上的dag计算框架），人们可以使用简单的类sql语句就可以跑出mr程序，从而来完成复杂的数据处理工作，hive让更多的人可以去处理大数据，并且让这份复杂的工作不再成为很困难的事情。hive是一种底层封装了hadoop的数据仓库处理工具，使用类sql的hiveql语言实现数据查询，所有hive的数据都存储在hadoop兼容的文件系统（例如，amazon s3、hdfs）中。hive在加载数据过程中不会对数据进行任何的修改，只是将数据迁移到hdfs设定的目录下。hive的设计特点如下，

支持创建索引，优化数据查询。
不同的存储类型，例如，纯文本文件、hbase中的文件。
将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。
可以直接使用存储在hadoop文件系统中的数据。
内置大量用户函数udf来操作时间、字符串和其他的数据挖掘工具，支持用户扩展udf函数来完成内置函数无法实现的操作。
类sql的查询方式，将sql查询转换为mapreduce的job在hadoop集群上执行。

最后，介绍一下小编最近写的一本书，叫《hive数据仓库企业级应用》。

在介绍这本书之前，首先跟大家分享一下小编写这本书的缘由。我也不知道是一个多么幸运的机会，让小牛和电子社的老师找到我。答应写书之后，已经数不清多少个夜晚在加班之后回去和周末还要继续创作，在我写这本书的过程当中，我深深体会到了自己的想法还是受言语和表达的束缚。在坚持了一年多的时间里，电子版校对和纸质版的校对不计其数，曾经因为内容以及表达的问题，被返稿了多次，也一度想要放弃，但是我相信坚持下去就会得到想要的结果。就在历时大概快两年的时间之后，这本书总算接近了尾声，看到了自己想要的结果。

说了这么多，我们来看一下这本书的内容，本书主要的出发点是为了让更多的人去学会hive，将实战与原理相结合。从最基础的语法讲起，
实战方面共分为了24章去讲解，从最基础的hql语法到hql优化，以及最后的案例实战，整个过程都是含有实战性代码以及运行结果。

原理部分的关键是最后的hive的源码剖析，让广大读者可以跟随小编去了解hive的运行机理，方便我们更深入的了解hive的运行机制。更加重要的是，我们可以从中了解到某一个组件之所以这么被看好，它的奥妙所在。

全书大致包含的内容如下:

-------------------------------------------------hive介绍篇--------------------------------------

第1章 hive基础知识：hadoop、hive概述
第2章 hive配置

-------------------------------------------------hive入门篇--------------------------------------

第3章 hive的基本操作
第4章 hiveql：数据定义（数据库和表）
第5章 hiveql数据操作
第6章 hiveql：查询（select、where、group by、join、order by和sort by、distribute by、cluster by、hive类型转换、抽样查询、union all）
第7章 hiveql：视图
第8章 hiveql：索引
第9章模式设计

-------------------------------------------------hive进阶篇-------------------------------------

第10章调优
第11章其他文件格式和压缩方法
第12章开发
第13章函数（发现和描述、调用、聚合、表生成函数）
第14章 streaming（介绍及代码编写、使用分布式内存）
第15章自定义hive文件和记录格式（sequencefile、rcfile、csv和tsv serde）

-------------------------------------------------hive强化篇--------------------------------------

第16章 hcatalog（介绍、命令行、架构）
第17章 hive和oozie整合（oozie简介、oozie多种操作、oozie coordinator使用）
第18章 hive和亚马逊网络服务系统（aws）
第19章存储处理程序和nosql（storage handler background、hivestoragehandler、cassandra、dynamodb）

-------------------------------------------------hive实战篇--------------------------------------

第20章 hive大数据分析之战
第21章 hive广告日志数据开发
第22章 hive电商数据开发
第23章 hive数据分析及定时任务调度
第24章 hive电视收视率统计项目开发

-----------------------------------------------hive源码剖析篇---------------------------------

第25章 hive源码剖析（semanticanalyzer、mapredtask、execdriver、源码剖析图）

创新点：源码部分从读取源码时候的环境搭建，然后每一步的函数调用，会跟随小编的思路，浏览遍hive的源码。实战部分根据几个企业级的真实数据以及真实场景去做的整个项目，可以跟随小编了解到企业中hive的应用场景是怎么样的。

适读人群：主要偏向于想要了解源码、想要学习企业中开发的流程、对大数据感兴趣并且想要学习的人。

最后，《hive数据仓库企业级应用》是小编要上的一本书，感兴趣的朋友可以进行关注。

专注于大数据、机器学习、云计算方面的研究，感兴趣的小伙伴可以扫码交流，一起组建技术交流群，本书出版之后，将会逐一邮寄给幸运的朋友。以下是作者个人微信和技术交流群，欢迎大家踊跃加入。

技术交流群	作者个人微信

@end

欢迎关注米兜java，一个注在共享、交流的java学习平台。

file

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

使用wmic查看远程服务器磁盘空间剩余量

1、准备工作1.1、远程服务器的IP、主机账号及密码确认远程服务器IP地址、主机账号及密码。1.2、服务确认开启... [阅读全文]
算法之算法概述

目录一、算法概述1、算法和数据结构（1）什么是算法？（2）什么是数据结构？2、时间复杂度（1）执行次数（2）渐进... [阅读全文]
【大学分析】平均分384分！985厦门大学计算机专硕爆满！

【大学分析】栏目小编带你分析各个大学计算机考研真实报考数据，尝试探究考研难度和风险。厦门大学位于福建省厦门市，是... [阅读全文]
PTA 互评成绩计算（四舍五入函数出错？）

在浙大的计算机专业课中，经常有互评分组报告这个环节。一个组上台介绍自己的工作，其他组在台下为其表现评分。最后这个... [阅读全文]
量子计算机方面有新突破？silq详讲！

大约在四五个月前，我看在我所有计算机群里都在热传：“量子计算机领域有新突破！silq语言诞生！”。这个文章就让我... [阅读全文]
第九章同步

第九章同步9.1 背景到目前为止多道程序设计(multi- programming) :现代操作系统的重要特性... [阅读全文]
【深度学习笔记（五）】之卷积神经网络组成介绍

一.卷积神经网络（CNN）（一）结构组成经典的神经网络我们之间已经讲过了，现在我们要讲的是卷积神经... [阅读全文]
计算机里为什么不能精确表示浮点数

计算机的世界是一个二进制的世界。我们先来看看十进制和二进制的相互转换。十进制 --> 二进制：对... [阅读全文]
【奥鹏作业答案库网】大工20春《应用统计》在线作业1【奥鹏作业答案】

大工20春《应用统计》在线作业1试卷总分:100 得分:100一、单选题 (共 10 道试题,共 60 分)1... [阅读全文]
【操作系统学习笔记】一、操作系统概述

操作系统概述操作系统的基本特征1. 并发2. 共享3. 虚拟4. 异步操作系统的基本功能1. 进程管理2. 内存... [阅读全文]