当前位置：移动技术网 > IT编程>开发语言>Java > Elasticsearch实战 | 必要的时候，还得空间换时间!

Elasticsearch实战 | 必要的时候，还得空间换时间!

2019年08月11日 | 移动技术网IT编程 | 我要评论

1、应用场景

实时数据流通过kafka后，根据业务需求，一部分直接借助kafka-connector入elasticsearch不同的索引中。
另外一部分，则需要先做聚类、分类处理，将聚合出的分类结果存入es集群的聚类索引中。如下图所示：
业务系统的分层结构可分为：接入层、数据处理层、数据存储层、接口层。
那么问题来了？
我们需要基于聚合（数据处理层）的结果实现检索和聚合分析操作，如何实现更快的检索和更高效的聚合分析效果呢？

2、方案选型

方案一：
只建立一个索引，aggs_index。
数据处理层的聚合结果存入es中的指定索引，同时将每个聚合主题相关的数据存入每个document下面的某个field下。如下示意图所示：

方案一示意图

方案二:
新建两个索引：aggs_index以及aggs_detail_index。
其中：
1）aggs_index存储事件列表信息。
2）aggs_detail_index存储事件关联的文章内容信息。
如下图所示：

方案二示意图

3、方案对比

方案一优点：节省存储空间，只存储关联文章id，数据没有重复存储。
方案一缺点：检索、聚合慢，性能不能达标。
方案一后续的所有操作，都需要先遍历检索这一堆ids，然后再进行检索、聚合分析操作。

操作实例如下（实际比这要复杂）：
第一步：通过事件id，获取关联文章id列表；
第二步：基于关联文章id列表，进行检索和聚合操作。

post  aggs_index/_search
{
  "_source": {
  "includes":[
    "title",
"abstract",
"publish_time",
"author"
    ]},
  "query":{
    "terms":{
      "_id":"["789b4cb872be00a04560d95bf13ec8f42c",
      "792d9610b03676dc5644c2ff4db372dec4",
"817f5cff3dd0ec3564d45615f940cb7437",
"....."]
    }
  }
}

步骤2当id数量很多时，会有如下的错误提示：

{
  "error": {
    "root_cause": [
      {
        "type": "too_many_clauses",
        "reason": "too_many_clauses:
        maxclausecount is set to 1024"
      },

。。。

方案二优点：分开存储，便于一个索引中进行检索、聚合分析操作。
空间换时间，极大的提升检索效率、聚合速度。
方案二缺点：同样的数据，多存储了一份。
其对应的检索操作如下：

post  aggs_index/_search
{
  "_source": {
  "includes":[
    "title",
"abstract",
"publish_time",
"author"
    ]},
  "query":{
    "term":{
      "topic_id":"wiaegrbi0k9s1d2jrxpc"
    }
  }
}

是真的吗？
用事实说话：
以下响应时间的单位为：ms。
方案一要在n个（n接近10）索引，每个索引近千万级别的数据中检索。

两方案对比

两方案响应时间对比效果图

4、小结

由以上图示，对比可知，方案二采取了空间换时间的策略，数据量多存储了一份，但是性能提升了10余倍。
在实战开发中，我们要理性的选择存储方案，在磁盘成本日渐低廉的当下，把性能放在第一位，用户才能用的"爽“！

推荐阅读：

为什么选择 spring 作为 java 框架？

springboot rocketmq 整合使用和监控

上篇好文：

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

关于在IDEA中SpringBoot项目中activiti工作流的使用详解

记录一下工作流的在springboot中的使用,，顺便写个demo，概念，什么东西的我就不解释了，如有问题欢迎各位大佬指导一下。1.创建springboot项目... [阅读全文]
视频编辑工具ACDSee Luxea Video Editor安装及激活图文教程

acdsee luxea video editor如何免费激活？今天，小编为大家带来了acdsee luxea video editor安装及激活图文教程。感兴... [阅读全文]
解决java idea新建子目录时命名不是树形结构的问题

问题再现解决办法：点击设置，然后再点击compact middle packages，如下图：成功补充知识：idea 2019.2 svn 忽略文件/目录 .i... [阅读全文]
idea 普通文件夹转换成 module操作

经常会遇到从github上download的progect在idea里面打开是普通文件夹形式，而并不是我们想要的module形式（文件夹图标右下角有个蓝色的ta... [阅读全文]
SpringBoot中使用Ehcache的详细教程

ehcache 是一个纯 java 的进程内缓存框架，具有快速、精干等特点，是 hibernate 中默认的 cacheprovider。用惯了 redis，很... [阅读全文]
在idea 中添加和删除模块Module操作

1、添加模块2、删除模块补充知识：idea添加子module的正确姿势因需求要增加一个新的测试模块，于是要在一堆module中再添加一个module，单纯的我没... [阅读全文]
Unity3D生成一段隧道网格的方法

本文实例为大家分享了unity3d生成一段隧道网格的具体代码，供大家参考，具体内容如下一、需求最近有一个需求，生成段隧道的骨架网格。目前想到的方法就是，获取隧道... [阅读全文]
Django CBV模型源码运行流程详解

在view文件中编写一个类，并配置好路由class test(view): def get(self, request, *args, **kwargs): ... [阅读全文]
java spring整合junit操作(有详细的分析过程)

此博客解决了什么问题：解决测试的时候代码冗余的问题，解决了测试工程师的编码能力可能没有开发工程师编码能力的问题，解决了junit单元测试和spring注解相结合... [阅读全文]
详解JAVA 弱引用

定义弱引用是使用weakreference创建的引用，弱引用也是用来描述非必需对象的，它是比软引用更弱的引用类型。在发生gc时，只要发现弱引用，不管系统堆空间是... [阅读全文]