当前位置：移动技术网 > IT编程>开发语言>Java > Solr通过特殊字符分词实现自定义分词器详解

Solr通过特殊字符分词实现自定义分词器详解

2019年07月19日 | 移动技术网IT编程 | 我要评论

前言

我们在对英文句子分词的时候，一般采用采用的分词器是whitespacetokenizerfactory，有一次因业务要求，需要根据某一个特殊字符（以逗号分词，以竖线分词）分词。感觉这种需求可能与whitespacetokenizerfactory相像，于是自己根据solr源码自定义了分词策略。

业务场景

有一次，我拿到的数据都是以竖线“|”分隔，分词的时候，需要以竖线为分词单元。比如下面的这一堆数据：

有可能你拿到的是这样的数据，典型的例子就是来自csv文件的数据，格式和下面这种类似：

分词思路

在solr的schema.xml文件中，有这样的配置

<fieldtype name="text_ws" class="solr.textfield" positionincrementgap="100">
 <analyzer>
  <tokenizer class="solr.whitespacetokenizerfactory"/>
 </analyzer>
</fieldtype>

对于字段类型text_ws，指定了一个分词器工厂whitespacetokenizerfactory，根据这个类，可以实现通过空格来分词，那么我通过竖线分词的代码应该与之类似。

修改源码

在java工程中引入如下jar包：

<dependency>
  <groupid>org.apache.solr</groupid>
  <artifactid>solr-core</artifactid>
  <version>6.0.0</version>
</dependency>

参照whitespacetokenizerfactory的源码，写一个自己的myverticallinetokenizerfactory，内容基本不变：

package com.trainning.project.custom;

import java.util.arrays;
import java.util.collection;
import java.util.map;

import org.apache.lucene.analysis.tokenizer;
import org.apache.lucene.analysis.core.unicodewhitespacetokenizer;
import org.apache.lucene.analysis.util.tokenizerfactory;
import org.apache.lucene.util.attributefactory;

/**
* @author jiangchao
* @date 2017年4月2日下午3:41:13
*/
public class myverticallinetokenizerfactory extends tokenizerfactory{
 public static final string rule_java = "java";
 public static final string rule_unicode = "unicode";
 private static final collection<string> rule_names = arrays.aslist(rule_java, rule_unicode);

 private final string rule;

 /** creates a new myverticallinetokenizerfactory */
 public myverticallinetokenizerfactory(map<string,string> args) {
  super(args);

  rule = get(args, "rule", rule_names, rule_java);

  if (!args.isempty()) {
  throw new illegalargumentexception("unknown parameters: " + args);
  }
 }

 @override
 public tokenizer create(attributefactory factory) {
  switch (rule) {
  case rule_java:
   return new myverticallinetokenizer(factory);
  case rule_unicode:
   return new unicodewhitespacetokenizer(factory);
  default:
   throw new assertionerror();
  }
 }
}

具体做分词的myverticallinetokenizer代码如下

package com.trainning.project.custom;

import org.apache.lucene.analysis.util.chartokenizer;
import org.apache.lucene.util.attributefactory;

/**
* @author jiangchao
* @date 2017年4月2日下午9:46:18
*/
public class myverticallinetokenizer extends chartokenizer {

 public myverticallinetokenizer() {

 }
 public myverticallinetokenizer(attributefactory factory) {
  super(factory);
  }

  /** collects only characters which do not satisfy
  * 参数c指的是term的ascii值，竖线的值为 124
  */
  @override
  protected boolean istokenchar(int c) {
  return !(c == 124);
  }
}

这里最主要的方法就是istokenchar，它控制了分词的字符，如果需要使用逗号分词的话，字需要将这个方法修改成下面这样：

 /** collects only characters which do not satisfy
  * 参数c指的是term的ascii值，逗号的值为 44
  */
  @override
  protected boolean istokenchar(int c) {
  return !(c == 44);
  }

整合

代码写好了，怎么使用呢？首先，需要把刚才的java文件打成jar包。我使用的是eclipse，直接选中两个类文件，右键 -> export -> jar file -> select the export destination: ->选择输出路径，填一个jar名字：myverticallinetokenizerfactory -> finish

得到的myverticallinetokenizerfactory.jar文件大约3kb，将改文件放置到.\solr_home\lib下，在shcema.xml中定义自己的field

<fieldtype name="vertical_text" class="solr.textfield">
 <analyzer>
  <tokenizer class="com.trainning.project.custom.myverticallinetokenizerfactory"/>
 </analyzer>
 </fieldtype>
 <field name="custom" type="vertical_text" indexed="true" stored="false"/>

注意这里的class是刚才自己写的分词器的完整类名。

打开solr主页，在analysis页面测试一下，是否实现了预期？

源码下载：

github：

本地下载：

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对移动技术网的支持。

您可能感兴趣的文章:

如对本文有疑问，点击进行留言回复！！

浅谈Java分布式架构下如何实现分布式锁

01分布式锁运用场景　　互联网秒杀，抢优惠卷，接口幂等性校验。咱们以互联网秒杀为例。　@restcontroller　　@slf4j　　publicclassi... [阅读全文]
详解SpringBoot修改启动端口server.port的四种方式

方式一: 配置文件 application.propertiesserver.port=7788方式二: java启动命令# 以应用参数的方式java -jar... [阅读全文]
Spring AOP里的静态代理和动态代理用法详解

什么是代理？　　为某一个对象创建一个代理对象，程序不直接用原本的对象，而是由创建的代理对象来控制原对象，通过代理类这中间一层，能有效控制对委托类对象的直接访问，... [阅读全文]
java实现通讯录管理系统

本文实例为大家分享了java实现通讯录管理系统的具体代码，供大家参考，具体内容如下完成项目的流程：1.根据需求，确定大体方向 2.功能模块分析 3.界面实现 4... [阅读全文]
Java中数据库常用的两把锁之乐观锁和悲观锁

在写入数据库的时候需要有锁，比如同时写入数据库的时候会出现丢数据，那么就需要锁机制。　　数据锁分为乐观锁和悲观锁，那么它们使用的场景如下：　　1. 乐观锁适用于... [阅读全文]
git在idea中的冲突解决方法(非常重要)

1、git冲突的场景情景一：多个分支代码合并到一个分支时；情景二：多个分支向同一个远端分支推送代码时；实际上，push操作即是将本地代码merge到远端... [阅读全文]
Java代码生成器的制作流程详解

1. 前言前几天写了篇关于mybatis plus代码生成器的文章，不少同学私下问我这个代码生成器是如何运作的，为什么要用到一些模板引擎，所以今天来说明下代码生... [阅读全文]
Java中生产者消费者问题总结

生产者-消费者算是并发编程中常见的问题。依靠缓冲区我们可以实现生产者与消费者之间的解耦。生产者只管往缓冲区里面放东西，消费者只管往缓冲区里面拿东西。这样我们避免... [阅读全文]
Java 编程中十个处理异常的建议

一、尽量不要使用e.printstacktrace(),而是使用log打印。反例:try{ // do what you want }catch(excepti... [阅读全文]
Spring boot热部署devtools过程解析

1 pom.xml文件注：热部署功能spring-boot-1.3开始有的<dependency> <gr... [阅读全文]

网友评论


验证码：

Solr通过特殊字符分词实现自定义分词器详解

2019年07月19日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论