当前位置：移动技术网 > IT编程>数据库>其他数据库 > hive调优

hive调优

2018年07月30日 | 移动技术网IT编程 | 我要评论

1、表和sql的优化
       -》大表拆分成小表、分区表、外部表、临时表都是属于优化的一块
           -》分区表：检索更快速
           -》外部表：数据安全性
           -》临时表&拆分子表：简化复杂的SQL以及需求

2、SQL可以从join和fliter两方面深入

3、MR优化
           -》map和reduce的个数
               -》一个分片就是一个块，一个块对应一个maptask
               -》Hadoop源码中有一个计算公式
           min(max_split_size,max(min_split_size,block_size))
           -》min_split_size默认值0（最小分片大小）
           -》max取的时候取的是block_size，block_size默认是128
           -》max_split_size默认值256（最大分片大小）
           -》这个公式决定了map的个数
           -》肯定不能直接去修改HDFS的block_size
           -》一般在实际的生产环境中HDFS一旦format格式化之后，block_size大小不会去修改的
           -》通过修改max_split_size和min_split_size来影响map的个数
           -》并行执行
               -》针对有些互相没有依赖关系的独立的job，可以选择并发的执行job
               hive.exec.parallel
               -》是否开启并行执行的功能
               hive.exec.parallel.thread.number
               -》设置并行执行的线程个数
               -》一般在工作中会选择去开启该功能
               -》根据实际的集群的状况和服务器的性能合理的设置线程数目
           -》JVM重用
               -》mapreduce.job.jvm.numtasks通过合理的测试，设置一个合理的数目
           -》推测执行
               -》当某个任务出现迟迟不结束的情况，那么会考虑开启推测执行，开启一个一模一样的任务去完成
               -》两个任务谁先完成，就会关闭另一个
               -》分为map端的推测和reduce端的推测
               -》不好的地方：过多的消耗资源
               mapreduce.map.speculative
               mapreduce.reduce.speculative
               -》额外消耗节点资源
               -》可能会出现重复写入的情况，产生异常

4、hive本地模式
               -》业务场景：处理小数据集的时候，速度会更快一些
               -》hive.exec.mode.local.auto
               -》本地模式的限制：数据的输入大小不能超过128MB
               -》本地模式的限制：map数不能超过4个
               -》本地模式的限制：reduce的个数不能超过1个

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

HBase Filter 过滤器之FamilyFilter详解

前言：本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用，并贴出了相关示例代码以供参考。FamilyF... [阅读全文]
流媒体与实时计算，Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免... [阅读全文]
Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345"... [阅读全文]
在一个千万级的数据库查寻中，如何提高查询效率？？？？

摸清数据产生量如何，如果是1钞钟1条记录，则一台车一天就有86400条记录，则建议如下： 1、每台车使用单独的表，程序内部使用CreateTable，动... [阅读全文]
Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]

网友评论


验证码：

hive调优

2018年07月30日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论