展会信息港展会大全

海量发布分词基础件 提升中文信息处理应用
来源:互联网   发布日期:2011-09-06 13:19:31   浏览:13013次  

导读:海量发布分词基础件 提升中文信息处理应用...

  【赛迪网讯】9月18日消息,昨日国内IT企业海量公司宣布:海量将面向世界范围内的中文信息处理研究机构,推出中文分词基础件研究版,供用户无限期免费下载。消息传出后,引起了相关专业人士热切关注。专家认为,海量此举,解决了国内外诸多研究机构最头疼的难题,必将推动中文信息处理技术的提高及应用。

  据了解,分词技术是中文自然语言理解最基本的前提,也是中文信息从“数据时代”向“情报时代”发展进程中必“跳”之“龙门”。由于技术难度大、开发周期长,长期以来,分词技术一直是中文搜索引擎、知识管理、内容数据挖掘等技术研究的门槛和瓶颈。而海量公司在中文自然语言理解领域一直处于国际领先地位,其分词基础件技术领先、产品成熟,是目前唯一被广泛应用的分词产品。

  由于语言文化的差异,中文信息化处理一直远远落后于英文以及其他语种。而中文分词技术是中文信息自动化处理技术发展的瓶颈。国际著名自然语言理解技术专家周富秋说:“英文清晰的单词分隔和严格的语法规范使得英文信息智能化处理具有天然的优势。现在基于英文人工智能系统水平已经相当于7岁的儿童,而使用中文的情况下只有两岁儿童的水平。一个重要的原因在于,英文清晰的单词分隔。可以设想,英文句子中没有空格,立刻就成了一堆没有人能读懂的字母乱码。但中文天生就是没有空格的,这就使汉字在信息时代的智能化处理非常困难。”

  据海量技术人员介绍,中文自动分词准确率低主要有两个难题:一是分词歧义,二是为登录词(例如人名、地名)识别。海量以“砌词”为突破口,博采众长各个击破,采用复方概念平衡各算法,有效地提高了未登录词的识别率,降低了分词歧义的干扰,使海量分词在大规模语料测试中的准确率达到了99.5%,分词效率2000万字/分钟,已经达到实用要求。

  作为中文信息处理的核心和汉语自然语言理解的基础,中文智能分词基础件有着广泛的应用前景。海量产品总监沈止戈归纳了以下五大类:

  1)信息检索:如全文检索、主题检索

  2)汉字处理:如智能拼音输入、手写识别输入、中文OCR识别、自动校对、简繁转换

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港