当前位置：移动技术网 > IT编程>数据库>其他数据库 > ElasticStack学习（五）：ElasticSearch索引与分词

ElasticStack学习（五）：ElasticSearch索引与分词

2019年07月12日 | 移动技术网IT编程 | 我要评论

一、正排索引与倒排索引

1、什么是正排索引呢？

　　以一本书为例，一般在书的开始都会有书的目录，目录里面列举了一本书有哪些章节，大概有哪些内容，以及所对应的页码数。这样，我们在查找一些内容时，就可以通过目录来定位到这些内容大概在哪页。因此，书的目录就可以称之为正排索引（目录页）。

2、什么时倒排索引呢？

　　还是以一本书为例，在有些书的最后，会有以词为单位的列表，指明了相应的词分别出现在了哪些页中，而这样的列表就称之为倒排索引（索引页）。

3、两者在搜索引擎中的对比

　　正排索引：文档id到文档内容和单词的关联；

　　倒排索引：单词到文档id的关联；

如下表所示：

文档id	文档内容
1	mastering elasticsearch
2	elasticsearch server
3	elasticsearch stack

单词	出现次数	文档id：出现位置
mastering	1	1:0
elasticsearch	3	1:1,2:0,3:0
server	1	2:1
stack	1	3:1

上述两表就是正排索引与倒排索引的简单结构说明。

4、倒排索引的组成

倒排索引由两部分组成：

　　1）单词词典：它记录了所有文档的单词，同时记录了单词到倒排列表的关联关系。单词词典一般比较大，可以通过b+树或哈希拉链法实现，以满足高性能的插入与查询。

　　2）倒排列表：它记录单词所对应的文档组合体，主要是由倒排索引项组成的。

　　　　倒排索引项的内容包括：

　　　　　　a）文档id；

　　　　　　b）词频（term frequency），代表单词在文档中出现的次数，用于相关性打分；

　　　　　　c）位置（position），表示单词在文档中分词的位置，用于语句搜索；

　　　　　　d）偏移（offset），记录单词开始和结束位置，用于实现高亮显示；

二、分词与分词器

1、分词：文本分析就是把全文转换成一系列单词（term/token）的过程，也叫做分词。

2、分词器：分词是通过分词器来实现的，它是专门处理分词的组件。可以使用elasticsearch内置的分词器，也可以按需定制化分词器。

　　因此，除了在数据写入时用分词器转换词条，在匹配查询语句时，也需要用相同的分词器对查询语句进行分析。

　　分词器由三部分组成：

　　1）character filters：它的主要作用是对原始文本进行处理，例如去除html标签；

　　2）tokenizer：主要作用是按照规则来切分单词；

　　3）token filter：将切分好的单词进行加工，例如：小写转换、删除停用词、增加同义词；

　　elasticsearch内置了如下分词器：

　　1）standard analyzer：默认分词器，按词切分，转小写处理；

　　2）simple analyzer：按照非字母切分（符号被过滤），转小写处理；

　　3）stop analyzer：停用词过滤（is/a/the），转小写处理；

　　4）whitespace analyzer：按照空格切分，转小写处理；

　　5）keyword analyzer：直接将输入当作输出，不分词；

　　6）pattern analyzer：正则表达式分词，默认\w+（非字符分隔）；

　　7）language：提供了30多种常见语言的分词器；

　　8）custom analyzer：自定义分词器；

3、中文分词

　　1）我们采用analysis-icu插件进行中文分词，可通过命令行：elasticsearch-plugin install analysis-icu来安装此插件。该插件提供了unicode支持，可以更好的支持亚洲语言。如下图所示：

　　2）社区中还有其他很好的分词器，如下：

　　　　a）ik：支持自定义词库，支持热更新分词字典；下载地址：

　　　　b）thulac：thu lexucal analyzer for chinese，由清华大学自然语言处理和社会人文计算实验器出的一套中文分词器；下载地址：

　　　　大家可关注我的公众号

　　　　知识学习来源：《elasticsearch核心技术与实战》

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

HBase Filter 过滤器之FamilyFilter详解

前言：本文详细介绍了 HBase FamilyFilter 过滤器 Java&Shell API 的使用，并贴出了相关示例代码以供参考。FamilyF... [阅读全文]
流媒体与实时计算，Netflix公司Druid应用实践

Netflix(Nasdaq NFLX)，也就是网飞公司，成立于1997年，是一家在线影片[租赁]提供商，主要提供Netflix超大数量的[DVD]并免... [阅读全文]
Spark高级算子aggregate所遇到的坑

val rdd3 = sc.parallelize(List("12","23","345"... [阅读全文]
在一个千万级的数据库查寻中，如何提高查询效率？？？？

摸清数据产生量如何，如果是1钞钟1条记录，则一台车一天就有86400条记录，则建议如下： 1、每台车使用单独的表，程序内部使用CreateTable，动... [阅读全文]
Spark中Broadcast的理解

广播变量应用场景：在提交作业后，task在执行的过程中，有一个或多个值需要在计算的过程中多次从Driver端拿取时，此时会必然会发生大量的网络IO， ... [阅读全文]
实时流式计算系统中的几个陷阱

随着诸如Apache Flink，Apache Spark，Apache Storm之类的开源框架以及诸如Google Dataflow之类的云框架的增... [阅读全文]
DataHub——实时数据治理平台

DataHub 首先，阿里云也有一款名为DataHub的产品，是一个流式处理平台，本文所述DataHub与其无关。数据治理是大佬们最近谈的一个火热的话... [阅读全文]
去 HBase，Kylin on Parquet 性能表现如何？

Kylin on HBase 方案经过长时间的发展已经比较成熟，但也存在着局限性，因此，Kyligence 推出了 Kylin on Parquet 方... [阅读全文]
如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过... [阅读全文]
HBase Filter 过滤器之RowFilter详解

前言：本文详细介绍了HBase RowFilter过滤器Java&Shell API的使用，并贴出了相关示例代码以供参考。RowFilter 基于行键... [阅读全文]

网友评论


验证码：

ElasticStack学习（五）：ElasticSearch索引与分词

2019年07月12日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论