当前位置: 移动技术网 > IT编程>开发语言>Java > java中文分词之正向最大匹配法实例代码

java中文分词之正向最大匹配法实例代码

2019年07月19日  | 移动技术网IT编程  | 我要评论

只要有你吉他谱,小时代txt,皇家猎杀

前言

基于词典的正向最大匹配算法(最长词优先匹配),算法会根据词典文件自动调整最大长度,分词的好坏完全取决于词典。

所谓词典正向最大匹配就是将一段字符串进行分隔,其中分隔 的长度有限制,然后将分隔的子字符串与字典中的词进行匹配,如果匹配成功则进行下一轮匹配,直到所有字符串处理完毕,否则将子字符串从末尾去除一个字,再进行匹配,如此反复。

算法流程图如下:

下面给大家主要讲一下中文分词里面算法的简单实现,废话不多说了,现在先上代码

示例代码

package com; 
 
 
import java.util.arraylist; 
import java.util.list; 
 
 
public class segmentation1 { 
 private list<string> dictionary = new arraylist<string>(); 
 private string request = "北京大学生前来应聘"; 
 
 public void setdictionary() { 
 dictionary.add("北京"); 
 dictionary.add("北京大学"); 
 dictionary.add("大学"); 
 dictionary.add("大学生"); 
 dictionary.add("生前"); 
 dictionary.add("前来"); 
 dictionary.add("应聘"); 
 } 
 
 public string leftmax() { 
 string response = ""; 
 string s = ""; 
 for(int i=0; i<request.length(); i++) { 
  s += request.charat(i); 
  if(isin(s, dictionary) && aheadcount(s, dictionary)==1) { 
  response += (s + "/"); 
  s = ""; 
  } else if(aheadcount(s, dictionary) > 0) { 
   
  } else { 
  response += (s + "/"); 
  s = ""; 
  } 
 } 
 return response; 
 } 
 
 private boolean isin(string s, list<string> list) { 
 for(int i=0; i<list.size(); i++) { 
  if(s.equals(list.get(i))) return true; 
 } 
 return false; 
 } 
 
 private int aheadcount(string s, list<string> list) { 
 int count = 0; 
 for(int i=0; i<list.size(); i++) { 
  if((s.length()<=list.get(i).length()) && (s.equals(list.get(i).substring(0, s.length())))) count ++; 
 } 
 return count; 
 } 
 
 public static void main(string[] args) { 
 segmentation1 seg = new segmentation1(); 
 seg.setdictionary(); 
 string response1 = seg.leftmax(); 
 system.out.println(response1); 
 } 
} 

可以看到运行结果是:北京大学/生前/来/应聘/

算法的核心就是从前往后搜索,然后找到最长的字典分词。

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,如果有疑问大家可以留言交流,谢谢大家对移动技术网的支持。

如对本文有疑问,请在下面进行留言讨论,广大热心网友会与你互动!! 点击进行留言回复

相关文章:

验证码:
移动技术网