当前位置：移动技术网 > 科技>人工智能>云计算 > ElasticSearch之termvector介绍

ElasticSearch之termvector介绍

2018年03月19日 | 移动技术网科技 | 我要评论

termvector会获取document中的某个field内的各个term的统计信息。

一 term的基本信息

# term_freq：在在该字段中的频率

# position：词在该字段中的位置

# start_offset：从什么偏移量开始的

# end_offset: 到什么偏移量结束

二 term的统计信息

如果启用了term的统计信息，即term_statistics设为true，那么有哪些统计信息呢？

# doc_freq：该词在文档中出现的频率

# ttf：total term frequency的缩写，一个term在所有document中出现的频率

三字段的统计信息

如果启用了字段统计信息，即field_statistics设为true,那么有哪些统计信息呢？

# sum_doc_freq: 一个字段中所有term的文档频率之和

# doc_count: 有多少个文档包含这个字段

# sum_ttf：sum total term frequency的缩写，一个字段中的每一个term的在所有文档出现之和

term statistics和field statistics并不精准，不会被考虑有的doc可能被删除了

四采集term信息的方式

采集term信息的方式有两种：index-time 和 query-time

4.1 index-time方式

需要在mapping配置一下，然后建立索引的时候，就直接生成这些词条和文档的统计信息

PUT /website

{

"mappings": {

"article":{

"properties":{

"text":{

"type": "text",

"term_vector": "with_positions_offsets",

"store": "true",

"analyzer" : "fulltext"

}

"settings": {

"analysis": {

"analyzer": {

"fulltext":{

"type": "custom",

"tokenizer": "whitespace",

"filter": [

"lowercase",

"type_as_payload"

]

}

4.2 query-time方式

即之前没有在mapping里配置过，而是通过查询的方式产生这些统计信息

POST /ecommerce/music/1/_termvectors

{

"fields":["desc"],

"offsets":true,

"payloads":true,

"positions":true,

"term_statistics":true,

"field_statistics" : true

}

五手动指定analyzer来生成termvector

我么可以通过指定per_field_analyzer设置一个分词器对该字段文本进行分词。

POST /ecommerce/music/1/_termvectors

{

"fields":["desc"],

"offsets":true,

"payloads":true,

"positions":true,

"term_statistics":true,

"field_statistics" : true,

"per_field_analyzer":{

"text":"standard"

}

六过滤term的统计信息

我们可以根据term的统计信息，过滤出我么想看的统计结果，比如过滤掉一些出现频率过低的term,比如我要过滤出该字段最多只有10个term，而且那些term在该字段中出现的频率为2，且

POST /ecommerce/music/1/_termvectors

{

"fields":["desc"],

"offsets":true,

"payloads":true,

"positions":true,

"term_statistics":true,

"field_statistics" : true,

"filter":{

"max_num_terms":10,

"min_term_freq" : 2,

"min_doc_freq" : 1

}

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

同方云家居：中国式云端生活缔造者

　　众所周知,“云计算”的浪潮正在席卷着整个IT行业。但“云计算”并不只是局限在IT行业中，它已经逐渐渗... [阅读全文]
雾里看花究竟什么是云服务器？

在这个云计算时代的到来，我们所知道的服务器种类，将不仅仅限于机架式服务器、塔式服务器、刀片服务器，已经有一种叫做“云服务器&rdquo... [阅读全文]
虚拟化是云数据中心建设关键技术之一

　　随着X86架构服务器使用越来越广泛，基于X86架构服务器的虚拟化技术一经问世，便开始引导了通用服务器的虚拟化变革历程。VMWare、XEN、微软等厂... [阅读全文]
微软进一步扩大云存储业务

　　StorSimple总部位于美国加州，它的产品在一年多前面世。StorSimple联合创始人兼CEO乌尔希特·帕里克（UrsheetP... [阅读全文]
云计算将带来商业模式革命概念股“千里挑一”

　　国金证券通信行业首席分析师陈运红：云计算将带来商业模式革命概念股“千里挑一” 　　江怡曼　　提到云计... [阅读全文]
虚拟化和云计算路向何方？

　　我们正处于一个有趣的历史节点。VMware公司的成功源于我们拥有的非常引人注目的价值主张——解决客户端-服务器时代的不... [阅读全文]
企业级虚拟化平台是云计算必由之路

　　6月20日，IBM新一代企业基础云平台研讨会在北京举行。IBM大中华区系统与科技部Power Systems高级产品经理谷建发表了主题演讲。谷... [阅读全文]
打造免费云平台十大与云有关开源项目

　　开源项目由于其开放、免费、自由灵活等特点深受广大开发者的喜爱。近年涌现了很多开源免费的东西深受欢迎。而云计算则是近段时间最热的科技名词，云计算... [阅读全文]
Oracle刘松：客户体验管理与社会化云服务平台

10月26日消息，由工信部信息化推进司指导，中国计算机用户协会与中国网上银行促进联盟主办的“2012年网银联盟大会暨电子银行创新颁奖典... [阅读全文]
胡斌：做大数据最终是要为公司带来变化的

10月24日“中国TMT国际商会月度英雄汇”在北京召开。胡斌在圆桌对话“大数据时代的机遇与挑战”中... [阅读全文]

网友评论


验证码：

ElasticSearch之termvector介绍

2018年03月19日 | 移动技术网科技 | 我要评论

一 term的基本信息

二 term的统计信息

三 字段的统计信息

四 采集term信息的方式

五 手动指定analyzer来生成termvector

六 过滤term的统计信息

您可能感兴趣的文章:

相关文章:

网友评论

三字段的统计信息

四采集term信息的方式

五手动指定analyzer来生成termvector

六过滤term的统计信息