展会信息港展会大全

王克江:解说百度中文分词原理
来源:互联网   发布日期:2011-09-06 13:19:40   浏览:14769次  

导读:王克江:解说百度中文分词原理...

   搜索引擎算法的改变迎来的中文分词原理的变化,下面idsem团队成员王克江以中文分词原理来解说百度中文分词原理的分词规则,分享如下:
  
一、中文分词原理的解说


1、基于理解的分词方法


基于理解的分词方法就是机器模拟人来理解词语,在语言知识及其词库的配合下,机器执行语句控制,词意控制,以及分词控制来模拟人来读取网页信息。可以理解成机器模拟人分词。


2、基于字符串匹配的分词方法


  基于字符串匹配分词是与词库进行对比按照不同的扫描方式进行分词,扫描方式分为四种:
1)正向最大匹配法(由左到右的方向)

2)逆向最大匹配法(由右到左的方向)
3)最少切分(使每一句中切出的词数最小)
4)双向最大匹配法(进行由左到右、由右到左两次扫描)


为了提高分词精确度,又出现了标志和特征扫描。标志分词以标志作为为断点,可将原字符串分为较小的串再来进机械分词;特征分词将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。


3、基于统计的分词方法


  基于统计的分词方法目前有两种方式:互现信息统计分词、机械学习统计分词   互现信息统计分词:在去除噪声的前提下统计词语出现的频率以及词语相邻的位置,根据相邻原则以及词语出现的频率形式词语。
机械学习统计分词:在有大量已经分词的文本前提下,利用统计机器学习模型学习词语切分的规律,实现对未知文本的切分,也可以成为训练统计分词。

4、歧义词语的识别


歧义分词包括交集型歧义和组合型歧义在此就不做具体介绍您可以参考"中文分词"百科  


5、新词识别


新词识别主要指专业术语或者是命名实体比如"人名、地名、机构名、商标"等在百度词库用定位为专有词库。


在为大家解说玩中文分词以后,那么百度是如何进行中文分词的呢,下面用具体例子详细介绍
  
二、图例详细解说百度如何进行中文分词



百度中文分词实例演示图
1、如图所示"林夕阁软文"匹配成词,体现了百度"基于理解的分词方法",机器模拟人理解出现了误区。


2、在admin5的URL描述中我们可以发现"林夕阁""软文"单独成词,那么在标题中"林夕阁软文"成词不光是进行了"理解分词"还参与了统计分词"互现信息"。


3、在标题中先出现了"王克江"又出现了"林夕阁软文"体现了正向最大匹配的基于字符串的分词方法。


4、4个返回结果相对比我们发现了"王克江"作为一个人名专有成词。


5、在"林夕阁软文"这个分词中又体现了歧义分词,林夕阁本身是做互联网名人专访的,但是从这个分词我们可以看出,百度还未解决歧义分词。

    那么综合上述5条,我们可以总结出,百度中文分词是综合了中文分词的所有形式,主要扫描方式是正向最大匹配。但是当百度改变算法以后,逆向最大匹配的扫描的方式也参与了百度的中文分词。


举例如下


百度中文分词新规律演示图

如图观察"小刚的爸爸"匹配成词,这个足以说明百度目前的分词方式已经综合了正向最大匹配和逆向最大匹配的扫描方式。


总结:了解中文分词,分析百度中文分词方式对网络营销以及软文写作有着重要的作用,当然,百度的算法也在不断改变,分词也在改进,只要我们抓住核心,以用户体验为基准,网络营销就不会在纠结。


版权:本文由idsem团队首席策划王克江手攥,版权归属idsem团队王克江所有,望您尊重!!!原文地址:http://www.idaus.com/blog-269-77.html      

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港