展会信息港展会大全

三种中文分词算法优劣比较
来源:互联网   发布日期:2011-09-09 13:39:25   浏览:16008次  

导读: 到目前为止,中文分词包括三种方法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。到目前为止,还无法证明哪一种方法更准确,每种方法都有自己的利弊,有强项也有致命弱点,简单的对比见下表所示: 各种分词方法的优劣对比 分词方法 基...

  到目前为止,中文分词包括三种方法:1)基于字符串匹配的分词;2)基于理解的分词;3)基于统计的分词。到目前为止,还无法证明哪一种方法更准确,每种方法都有自己的利弊,有强项也有致命弱点,简单的对比见下表所示:

各种分词方法的优劣对比

  分词方法   基于字符串匹配分词   基于理解的分词   基于统计的分词

  歧义识别   差   强   强

  新词识别   差   强   强

  需要词典   需要   不需要   不需要

  需要语料库   否   否   是

  需要规则库   否   是   否

  算法复杂性   容易   很难   一般

  技术成熟度   成熟   不成熟   成熟

  实施难度   容易   很难   一般

  分词准确性   一般   准确   较准

(1)歧义识别

歧义识别指

赞助本站

人工智能实验室

相关热词: 三种 中文分 词算 法优 劣比

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港