展会信息港展会大全

中文分词(基于有序HASH
来源:互联网   发布日期:2011-08-29 22:13:36   浏览:20560次  

导读: 有关有序HASH树SDK请参考以下网址 [url=http://bbs.51cto.com/thread-616675-1.html]http://bbs.51cto.com/thread-616675-1.html[/url] 作者联系方式: e-mail:[email]freeland007@163.com[/email] QQ: 723273055 1.1 基于词典中文分词介绍 这种方法又叫做...

有关有序HASH树SDK请参考以下网址

[url=http://bbs.51cto.com/thread-616675-1.html]http://bbs.51cto.com/thread-616675-1.html[/url]



作者联系方式:

e-mail:[email]freeland007@163.com[/email]

QQ: 723273055



1.1 基于词典中文分词介绍

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配。常用的两种分词方法如下:



(1)正向最大匹配。

正向最大匹配法目的是将最长的词分离出来,例如从文本的开始位置在词典中匹配出最长的词,例如词典中有以下:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。如果对以下文本进行分词:

“中华人民共和国万岁”,首先分出“中华人民共和国“这个词,而不是更短的”中华“、”中华人民“,然后解析出”万岁“这个词,依次类推解析出文本中的所有出现在词典中的词。



(2)逆向最大匹配。

逆向最大匹配法的基本原理和正向最大匹配法相同,不同的是分词切分的方向与正向最大匹配法相反,并且使用的分词词典也不同。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。



(3)最多匹配。

从文本中解析出所有的词,包括最长、最短以及其他所有出现在置在词典中词,例如词典中有以下:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。如果对以下文本进行分词:

“中华人民共和国万岁”,可以解析出:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。



基于有序HASH树可以开发出正向匹配分词、反向匹配分词;支持最大匹配、最小匹配、最多匹配。



1.2 功能实现原理

基于有序HASH树进行关键词的实现原理是把前缀匹配规则插入到有序HASH树

中,然后使用SDK中的反向模糊匹配函数输入文本进行模糊匹配,即可返回

赞助本站

人工智能实验室

相关热词: 中文分 基于 HASH

相关内容
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港