Lucene中文分词组件 JE-自然语言处理-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

Lucene中文分词组件 JE

来源：互联网发布日期：2011-10-03 18:28:41 浏览：22893次

导读：发布于：http://www.jesoft.cn/posts/list/5.page1.5.1 —— 2006-01-22 修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的...

资源简介

发布于：http://www.jesoft.cn/posts/list/5.page

1.5.1 —— 2006-01-22

修正细粒度分词错误的问题

1.5.0 —— 2007-01-18

全面支持Lucene 2.0

增强了词典维护的API

增加了商品编码的匹配

增加了Mail地址的匹配

实现了词尾消歧算法第二层的过滤

整理优化了词库

1.4.0 —— 2006-08-21

增加词典的动态扩展能力

1.3.3 —— 2006-07-23

修正无法多次增加词典的问题

1.3.2 —— 2006-07-03

修正细粒度分词错误的问题

1.3.1 —— 2006-06-23

修正在某些情况下分词遗漏的问题

1.3 —— 2006-06-22

实现了词尾消歧算法第一层的过滤

增加日期时间的匹配

1.2.2 —— 2006-06-13

完善了中英文噪声词典

1.2.1 —— 2006-06-10

修正中文数字成语无法识别的问题

1.2 —— 2006-06-08

增加中文数字的匹配（如：二零零六）

数量词采用“n”作为数字通配符

优化词典结构以便修改调整

1.1 —— 2006-06-06

增加扩展词典的静态读取方法

1.0.1 —— 2006-06-02

修正无法识别生僻字的问题

1.0 —— 2006-05-29

支持英文、数字、中文（简体）混合分词

常用的数量和人名的匹配

超过22万词的词库整理

实现正向最大匹配算法

支持分词粒度控制

//采用正向最大匹配的中文分词算法，相当于分词粒度等于0

MMAnalyzer analyzer = new MMAnalyzer();

//参数为分词粒度：当字数等于或超过该参数，且能成词，该词就被切分出来

MMAnalyzer analyzer = new MMAnalyzer(2);

//字符串切分，常用于客户的关键字输入

analyzer.segment(text, separator);

词典维护API（静态方法）：

//增加一个新词典，采用每行一个词的读取方式（注意：多线程状态下此时的分词效果将不可预料）

MMAnalyzer.addDictionary(reader);

//增加一个新词

MMAnalyzer.addWord(newWord);

//删除词库中的全部词语（注意：非常危险的操作，在没有加载新的词库前所有的分词都将失效）

MMAnalyzer.clear();

//词库中是否包含该词

MMAnalyzer.contains(String word);

//从词库中移除该词

MMAnalyzer.removeWord(String word);

//当前词库中包含的词语总数

MMAnalyzer.size();

相关热词： Java Lucene 中文分词

Lucene中文分词组件 JE
来源：互联网发布日期：2011-10-03 18:28:41 浏览：22893次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

Lucene中文分词组件 JE 来源：互联网 发布日期：2011-10-03 18:28:41 浏览：22893次