展会信息港展会大全

Lucene中文分词组件 JE
来源:互联网   发布日期:2011-10-03 18:28:41   浏览:22893次  

导读:发布于:http://www.jesoft.cn/posts/list/5.page1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的...

资源简介

发布于:http://www.jesoft.cn/posts/list/5.page

1.5.1 —— 2006-01-22

修正细粒度分词错误的问题

1.5.0 —— 2007-01-18

全面支持Lucene 2.0

增强了词典维护的API

增加了商品编码的匹配

增加了Mail地址的匹配

实现了词尾消歧算法第二层的过滤

整理优化了词库

1.4.0 —— 2006-08-21

增加词典的动态扩展能力

1.3.3 —— 2006-07-23

修正无法多次增加词典的问题

1.3.2 —— 2006-07-03

修正细粒度分词错误的问题

1.3.1 —— 2006-06-23

修正在某些情况下分词遗漏的问题

1.3 —— 2006-06-22

实现了词尾消歧算法第一层的过滤

增加日期时间的匹配

1.2.2 —— 2006-06-13

完善了中英文噪声词典

1.2.1 —— 2006-06-10

修正中文数字成语无法识别的问题

1.2 —— 2006-06-08

增加中文数字的匹配(如:二零零六)

数量词采用“n”作为数字通配符

优化词典结构以便修改调整

1.1 —— 2006-06-06

增加扩展词典的静态读取方法

1.0.1 —— 2006-06-02

修正无法识别生僻字的问题

1.0 —— 2006-05-29

支持英文、数字、中文(简体)混合分词

常用的数量和人名的匹配

超过22万词的词库整理

实现正向最大匹配算法

支持分词粒度控制

//采用正向最大匹配的中文分词算法,相当于分词粒度等于0

MMAnalyzer analyzer = new MMAnalyzer();

//参数为分词粒度:当字数等于或超过该参数,且能成词,该词就被切分出来

MMAnalyzer analyzer = new MMAnalyzer(2);

//字符串切分,常用于客户的关键字输入

analyzer.segment(text, separator);

词典维护API(静态方法):

//增加一个新词典,采用每行一个词的读取方式(注意:多线程状态下此时的分词效果将不可预料)

MMAnalyzer.addDictionary(reader);

//增加一个新词

MMAnalyzer.addWord(newWord);

//删除词库中的全部词语(注意:非常危险的操作,在没有加载新的词库前所有的分词都将失效)

MMAnalyzer.clear();

//词库中是否包含该词

MMAnalyzer.contains(String word);

//从词库中移除该词

MMAnalyzer.removeWord(String word);

//当前词库中包含的词语总数

MMAnalyzer.size();

赞助本站

人工智能实验室

相关热词: Java Lucene 中文 分词

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港