展会信息港展会大全

王昊 中文分词技术综述
来源:互联网   发布日期:2011-09-07 12:57:35   浏览:17156次  

导读: 王昊 中文分词技术综述 新闻来源:IR实验室 发布时间:2010-7-28 20:55:32 一、分次规范概述 1)黄昌宁提出的四个难题(1)词是否有清晰的(2)分词和理解孰先孰后(3)分词歧义消解(4)未登录词 2)国际中文分词评测Bakeoff a. 多个不同标准的分词语料同台测试 b. ...

王昊 中文分词技术综述

新闻来源:IR实验室      发布时间:2010-7-28 20:55:32

一、分次规范概述


  1)黄昌宁提出的四个难题(1)“词”是否有清晰的(2)分词和理解孰先孰后(3)分词歧义消解(4)未登录词
  2)国际中文分词评测Bakeoff
    a. 多个不同标准的分词语料同台测试
    b. 完成了从“分词规范”到“规范+词表”,再从
  意义:“规范+词表”到“分词语料库”的“词语”定义过程

二、自动分词原则


  1)有利于标注,句法分析
  2)准确率——重要指标
  3)容错性
  4)可移植性

三、自动分词方法基


  1)于字符串匹配(机械分词方法)
    正向最大匹配,正向最小匹配,逆向最大匹配,逆向最小匹配
  2)基于统计----基于词和词贡献的频率(概率)
  3)基于理解----理想的,实现难

四、歧义字段


  交集型切分歧义、多义组合型切分歧义、词汇级歧义、句子级歧义、语境级歧义

五、未登录词处理


  汇基于规则的方法、基于统计的方法

赞助本站

人工智能实验室

相关热词: 王昊 中文分 词技 术综

AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港