全文内容推荐引擎之中文分词-自然语言处理-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

全文内容推荐引擎之中文分词

来源：互联网发布日期：2011-10-03 18:03:21 浏览：17033次

导读：基于内容的推荐引擎有两种实现途径，一种是根据条目的元数据(可以将元数据理解为属性)，另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全...

基于内容的推荐引擎有两种实现途径，一种是根据条目的元数据(可以将元数据理解为属性)，另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式，然后描述基于元数据的内容推荐引擎实现方式。

对于基于条目文本描述信息的内容推荐引擎，目前有很多资料可以参考，基本步聚是先对文本内容进行分词，包括提取出单词、去掉常用词如的地得、加入同意词、对英语还有去掉复数形式和过去分词形式等;第二步是计算各个词在每篇文章中的出现频率，以及在所有文章中的出现频率，即TF/IDF;第三步计算文章向量;最后是利用自动聚类算法，对条目进行聚类，这样就可以实现向用户推荐同类产品的需求了。

但是在这里有一个非常重要的问题没有解决，就是中文分词的问题，这些文章中绝大部分都是以英文为背景的，而英文分词方面，分出单词很简单，只需要空格作为分隔符就可以了，而中文中词与词之间没有空格，其次是英文中单复数、过去分词等比较多，需要还原成单数现在式，但是中文中这个问题基本不存在，再有就是英文需要在分词后识别长的词组，而中文这一步也不需进行。

针对以上这些难题，在我的项目中，采用了MMSeg4j中文分词模块，这个项目集成了据说是搜狗输入法的10万多词库(大家知道中文分词的关键是中文词库)。

另外，我还希望中文分词可以在全文检索引擎和全文内容推荐引擎共用，由于全文检索引擎采用了Apache Lucene 3.x版本，需要中文分词模块符合Lucene的体系架构，幸运的是MMSeg4j提供了Lucene所需的Tokenizer实现类，同时还需要重点解决如下问题：

在项目中我定义了全文检索引擎类：

打印的内容如下：

测试 2011 年如 java 有意见分岐其中华人民共合国 oracle 咬死猎人的狗

当我们在缺省词库中加入单词：分岐中华人民共合国后，那么分词结果可以变为：

测试 2011 年如 java 有意见分岐其中华人民共合国 oracle 咬死猎人的狗

由此可见，可以通过完善中文词库，得到越来越好的中文分词效果。

原文链接：http://www.cnblogs.com/yantao7589/archive/2011/08/16/2140399.html

相关热词： 全文检索数据挖掘

全文内容推荐引擎之中文分词
来源：互联网发布日期：2011-10-03 18:03:21 浏览：17033次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

全文内容推荐引擎之中文分词 来源：互联网 发布日期：2011-10-03 18:03:21 浏览：17033次