展会信息港展会大全

搜寻引擎算法的转变迎来的中文分词原理的变更
来源:互联网   发布日期:2011-08-28 21:48:10   浏览:11376次  

导读:搜寻引擎算法的转变迎来的中文分词原理的变更 ,SEO论坛...

 搜寻引擎算法的转变迎来的中文分词原理的变更,上面idsem团队成员王克江以中文分词原理来讲解百度中文分词原理的分词规矩,分享如下:

  一、中文分词原理的讲解

  1、基于理解的分词方法

  基于理解的分词方法就是机器模仿人来理解词语,在言语常识及其词库的配合下,机器履行语句掌握,词意掌握,以及分词掌握来模仿人来读取网页信息。能够理解成机器模仿人分词。

  2、基于字符串匹配的分词方法

  基于字符串匹配分词是与词库进行对照遵照不同的扫描方法进行分词,扫描方法分为四种:

  1)正向最大匹配法(由左到右的方向)

  2)逆向最大匹配法(由右到左的方向)

  3)起码切分(使每一句中切出的词数最小)

  4)双向最大匹配法(进行由左到右、由右到左两次扫描)

  为了进步分词正确度,又涌现了标记和特性扫描。标记分词以标记作为为断点,可将原字符串分为较小的串再来进机械分词;特性分词将分词和词类标注联合起来,应用丰硕的词类信息对分词决策供给赞助,并且在标注历程中又反过去对分词后果进行测验、调剂,从而极大地进步切分的正确率。

  3、基于统计的分词方法

  基于统计的分词方法目前有两种方法:互现信息统计分词、机械学习统计分词 互现信息统计分词:在去除噪声的前提下统计词语涌现的频率以及词语相邻的地位,依据相邻准则以及词语涌现的频率情势词语。

  机械学习统计分词:在有少量已经分词的文本前提下,应用统计机器学习模型学习词语切分的法则,完成对未知文本的切分,也能够成为练习统计分词。

  4、歧义词语的辨认

  歧义分词包含交加型歧义和组合型歧义在此就不做具体介绍您能够参考”中文分词”百科

  5、新词辨认

  新词辨认重要指专业术语或许是命名实体比方”人名、地名、机构名、商标”等在百度词库用定位为专有词库。

  在为大家讲解玩中文分词以后,那么百度是如何进行中文分词的呢,上面器具体例子具体介绍

  二、图例具体讲解百度如何进行中文分词

  

百度中文分词实例演示图



  1、如图所示”林夕阁软文”匹配成词,表现了百度”基于理解的分词方法”,机器模仿人理解涌现了误区。

  2、在admin5的URL描写中咱们能够发明”林夕阁”"软文”独自成词,那么在题目中”林夕阁

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港