展会信息港展会大全

中文分词十年回顾.pdf
来源:互联网   发布日期:2011-09-07 12:57:55   浏览:14570次  

导读:中文分词十年回顾.pdf,过去的十年间,尤其是2003 年国际中文分词评测活动Bakeoff 开展以来,中文自动分词技术有了可喜的进步。其主...

说明:

过去的十年间,尤其是2003 年国际中文分词评测活动Bakeoff 开展以来,中文自动分词技术有了可喜的进步。其主要表现为: (1) 通过“分词规范+ 词表+ 分词语料库”的方法,使中文词语在真实文本中得到了可计算的定义,这是实现计算机自动分词和可比评测的基础; (2) 实践证明,基于手工规则的分词系统在评测中不敌基于统计学习的分词系统; (3) 在Bakeoff 数据上的评估结果表明,未登录词造成的分词精度失落至少比分词歧义大5 倍以上; (4) 实验证明,能够大幅度提高未登录词识别性能的字标注统计学习方法优于以往的基于词(或词典) 的方法,并使自动分词系统的精度达到了新高。

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港