当前位置：移动技术网 > IT编程>开发语言>Java > java中文分词之正向最大匹配法实例代码

java中文分词之正向最大匹配法实例代码

2019年07月19日 | 移动技术网IT编程 | 我要评论

只要有你吉他谱,小时代txt,皇家猎杀

前言

基于词典的正向最大匹配算法（最长词优先匹配），算法会根据词典文件自动调整最大长度，分词的好坏完全取决于词典。

所谓词典正向最大匹配就是将一段字符串进行分隔，其中分隔的长度有限制，然后将分隔的子字符串与字典中的词进行匹配，如果匹配成功则进行下一轮匹配，直到所有字符串处理完毕，否则将子字符串从末尾去除一个字，再进行匹配，如此反复。

算法流程图如下：

下面给大家主要讲一下中文分词里面算法的简单实现，废话不多说了，现在先上代码

示例代码

package com; 
 
 
import java.util.arraylist; 
import java.util.list; 
 
 
public class segmentation1 { 
 private list<string> dictionary = new arraylist<string>(); 
 private string request = "北京大学生前来应聘"; 
 
 public void setdictionary() { 
 dictionary.add("北京"); 
 dictionary.add("北京大学"); 
 dictionary.add("大学"); 
 dictionary.add("大学生"); 
 dictionary.add("生前"); 
 dictionary.add("前来"); 
 dictionary.add("应聘"); 
 } 
 
 public string leftmax() { 
 string response = ""; 
 string s = ""; 
 for(int i=0; i<request.length(); i++) { 
  s += request.charat(i); 
  if(isin(s, dictionary) && aheadcount(s, dictionary)==1) { 
  response += (s + "/"); 
  s = ""; 
  } else if(aheadcount(s, dictionary) > 0) { 
   
  } else { 
  response += (s + "/"); 
  s = ""; 
  } 
 } 
 return response; 
 } 
 
 private boolean isin(string s, list<string> list) { 
 for(int i=0; i<list.size(); i++) { 
  if(s.equals(list.get(i))) return true; 
 } 
 return false; 
 } 
 
 private int aheadcount(string s, list<string> list) { 
 int count = 0; 
 for(int i=0; i<list.size(); i++) { 
  if((s.length()<=list.get(i).length()) && (s.equals(list.get(i).substring(0, s.length())))) count ++; 
 } 
 return count; 
 } 
 
 public static void main(string[] args) { 
 segmentation1 seg = new segmentation1(); 
 seg.setdictionary(); 
 string response1 = seg.leftmax(); 
 system.out.println(response1); 
 } 
}

可以看到运行结果是：北京大学/生前/来/应聘/

算法的核心就是从前往后搜索，然后找到最长的字典分词。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，如果有疑问大家可以留言交流，谢谢大家对移动技术网的支持。

您可能感兴趣的文章:

如对本文有疑问，请在下面进行留言讨论，广大热心网友会与你互动！！点击进行留言回复

Spring Boot如何优雅的使用多线程实例详解

前言本文带你快速了解@async注解的用法，包括异步方法无返回值、有返回值，最后总结了@async注解失效的几个坑。在 springboot 应用中，经常会遇到... [阅读全文]
浅析我对 String、StringBuilder、StringBuffer 的理解

stringbuilder、stringbuffer 和 string 一样，都是用于存储字符串的。1、那既然有了 string ，为什么还需要他们两个呢？原因... [阅读全文]
Spring Boot加密配置文件特殊内容的示例代码详解

有时安全不得不考虑，看看新闻泄漏风波事件就知道了我们在用spring boot进行开发时，经常要配置很多外置参数ftp、数据库连接信息、支付信息等敏感隐私信息，... [阅读全文]
如何去除Java中List集合中的重复数据

1.循环list中的所有元素然后删除重复public class duplicatremoval {public static list removedupli... [阅读全文]
使用IDEA搭建SSM框架的详细教程(spring + springMVC +MyBatis)

1 框架组成springspringmvcmybatis2 所需工具mysql 8.0.15数据库管理系统，创建数据库tomcat 8.5.51&... [阅读全文]
Springboot整合freemarker 404问题解决方案

今天遇到了ftl整合springboot出现的问题@controllerpublic class indexcontroller { @requestmapp... [阅读全文]
Java面向对象之继承性的实例代码详解

一、类的继承a类继承b类，是指a类可以拥有b类的非私有属性和方法，同时a类也可以自己定义属性方法或重写方法以扩充自己的功能。1.1 方法的重写重写方法时，方法的... [阅读全文]
引入mybatis-plus报 Invalid bound statement错误问题的解决方法

错误mybatis-plus (简称mp) 是mybatis的一个增强工具，在mybatis的基础上只做增强不做改变，简化了开发效率。其实就是帮我们封装了一些简... [阅读全文]
Java rmi远程方法调用基本用法解析

本文主要介绍java中的rmi的基本使用1：项目架构api：主要是接口的定义，url地址，端口号rmiconsumer：rmi服务的调用者rmiserver：r... [阅读全文]
Matlab及Java实现小时钟效果

本文实例为大家分享了matlab及java实现小时钟的具体代码，供大家参考，具体内容如下一年前曾经用matlab的gui做了一个时钟，由于是直接用guide和a... [阅读全文]

网友评论


验证码：

java中文分词之正向最大匹配法实例代码

2019年07月19日 | 移动技术网IT编程 | 我要评论

您可能感兴趣的文章:

相关文章:

网友评论