有关有序HASH树SDK请参考以下网址
[url=http://bbs.51cto.com/thread-616675-1.html]http://bbs.51cto.com/thread-616675-1.html[/url]
作者联系方式:
e-mail:[email]freeland007@163.com[/email]
QQ: 723273055
1.1 基于词典中文分词介绍
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,字符串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大匹配和最小匹配。常用的两种分词方法如下:
(1)正向最大匹配。
正向最大匹配法目的是将最长的词分离出来,例如从文本的开始位置在词典中匹配出最长的词,例如词典中有以下:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。如果对以下文本进行分词:
“中华人民共和国万岁”,首先分出“中华人民共和国“这个词,而不是更短的”中华“、”中华人民“,然后解析出”万岁“这个词,依次类推解析出文本中的所有出现在词典中的词。
(2)逆向最大匹配。
逆向最大匹配法的基本原理和正向最大匹配法相同,不同的是分词切分的方向与正向最大匹配法相反,并且使用的分词词典也不同。在实际处理时,先将文档进行倒排处理,生成逆序文档。然后,根据逆序词典,对逆序文档用正向最大匹配法处理即可。
(3)最多匹配。
从文本中解析出所有的词,包括最长、最短以及其他所有出现在置在词典中词,例如词典中有以下:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。如果对以下文本进行分词:
“中华人民共和国万岁”,可以解析出:中华、中华人民、中华人民共和国、华人、人民、共和、共和国、人民共和国、万岁。
基于有序HASH树可以开发出正向匹配分词、反向匹配分词;支持最大匹配、最小匹配、最多匹配。
1.2 功能实现原理
基于有序HASH树进行关键词的实现原理是把前缀匹配规则插入到有序HASH树
中,然后使用SDK中的反向模糊匹配函数输入文本进行模糊匹配,即可返回
中文分词(基于有序HASH
来源:互联网 发布日期:2011-08-29 22:13:36 浏览:20560次
导读: 有关有序HASH树SDK请参考以下网址 [url=http://bbs.51cto.com/thread-616675-1.html]http://bbs.51cto.com/thread-616675-1.html[/url] 作者联系方式: e-mail:[email]freeland007@163.com[/email] QQ: 723273055 1.1 基于词典中文分词介绍 这种方法又叫做...
下一篇:CRF中文分词开源版 1.0
相关内容
- 微软正在测试 Xbox AI 聊天机器人:可自然语言获取 Xbox 支持
- 特斯拉正开发“私有5G”基站,为电动汽车及人形机器人提供支持
- 上市公司积极布局人形机器人赛道
- Kria开发板搭配QNX软件,AMD、黑莓宣布合作推进下一代机器人系统
- 苹果从汽车转向家用机器人,机器人100ETF(159530)投资机会备受关注
- 人形机器人登陆英伟达GTC大会,产业发展已成趋势
- 李彦宏上车直播:汽车机器人就是未来,相当于司机和助理
- 从液压Atlas到电动Atlas,人形机器人的拐点时刻
- 首个消费级意识仿生机器人,WALL-E从《机器人总动员》迈向现实|早期项目
- 第一个具有情商的聊天机器人来了,这可能是未来 Siri 的样子
AiLab云推荐
最新资讯
本月热点
- 人形机器人崛起:OpenAI、微软洽谈投资Figure AI,望募资5亿美元
- OpenAI 悄悄升级 ChatGPT:可在对话中调用不同的自定义聊天机器人 | 懂点AI
- 麒麟信安入股超能机器人 或尝试打开新业绩增长点?公司最新回应来了
- Limbic开发AI心理咨询机器人,帮用户避免与人类交流可能引发的焦虑感
- 灿瑞科技:已有产品应用于消费级机器人领域
- 英伟达官宣AI聊天机器人,本地RTX显卡运行,这是要挑战OpenAI?
- 人形机器人企业暂时得救了
- Meta联合研发家务机器人,能在零人力帮助下自主整理房间
- 端到端纯视觉!OpenAI押注的人形机器人献艺拜年了
- 波士顿动力 Atlas 机器人能力升级,可灵活搬运汽车零件
热门排行
-
斯坦福家政机器人火了但又翻车了!多数是真人操控编排的
阅读量:163437
-
斯坦福团队发布新机器人Mobile Aloha,人形机器人将迎来产业元年?
阅读量:160742
-
我的同事是 GPT-4 机器人,我们在 Slack 上一起工作
阅读量:156966
-
谷歌起草“机器人宪法”,以确保 AI 机器人不会伤害人类
阅读量:155108
-
人形机器人崛起:OpenAI、微软洽谈投资Figure AI,望募资5亿美元
阅读量:99275
-
大疆回应停售青少年教育产品:将资源聚焦在大学生高校机器人赛事
阅读量:63333