展会信息港展会大全

[多图]中文分词技术实验:百度、雅虎、谷歌大比拼
来源:互联网   发布日期:2011-08-18 14:47:42   浏览:12814次  

导读:本 人是搜索引擎优化技术的爱好者,这篇文章将采用大部分人都可以看得懂的简单方式,让大家欣赏一下中国三大搜索引擎的分词技术。很幸运,我们的三大搜索引擎 都...

感谢跑车哥哥的投递
本 人是搜索引擎优化技术的爱好者,这篇文章将采用大部分人都可以看得懂的简单方式,让大家欣赏一下中国三大搜索引擎的分词技术。很幸运,我们的三大搜索引擎 都在他们的快照里把查询语句拆分,然后用不同颜色的高亮来显示,大家可以一目了然地看到他们的分词方法。搜狗、有道这些非主流的搜索引擎都没有这种功能。 腾讯搜搜采用的是谷歌的内核,快照可以直接看到,但是却没有分词高亮显示。谷歌已经去掉了“快照”功能,只有上Google去,并且需要使用代理服务器或者用一点小技巧才能看到。雅虎跟易搜使用相同的搜索核心,这次我使用的是易搜,也就是以前“悲情谢幕”的一搜,现在马云同志好马勇吃回头草,变成了易搜,继续造福中国人民。

分词技术第一例:红色摇滚很搞笑



从拆词的情况来看,谷歌竟然并没有把“摇滚”看作是一个词!它是不是在搞笑?这就意味着,当你的谷歌里搜索“摇滚”的时候,谷歌把这句话也当成候选的结果“斗牛士摇来摇去,公牛说:本牛不操无名之辈,滚!”



雅虎比谷歌更懂中文!人家起码知道摇滚是一个词。



呵呵,这就是业界一直盛传的百度很牛逼的分词技术了,把“红色摇滚”整个儿好地看成一个词,赞。它连“很搞笑”都看成是一个整体!

分词技术第二例:比尔盖茨正在重装操作系统



谷歌果然不给微软面子,连“盖茨”这个名儿都不算一个词,“重装”自然也不算了,更不要提“操作系统”了,感觉谷歌就像一个绝世武林高手,把一张 纸 抛向空中,然后吆喝一声,用手中的宝剑唰唰唰唰地把那张纸碎尸万段。一个美眉泪奔:人家写给盖茨的情书,你怎么把它喜唰唰了?谷歌道:查无此人。



谷歌拆分的本领太幼稚了,雅虎当然胜出,“比尔盖茨”和“重装”都成了词,可见马云忽悠大家说雅虎搜索最好还不算太离谱,起码分词比谷歌先进。



百度大亨闪亮登场,一切完美,可以认出“操作系统”。宏哥果然厉害,叹服。

分词技术第三例:谁在用吉它弹奏一曲十八摸



谷歌又来喜唰唰了,不服不行,“吉它”“弹奏”都被棒打鸳鸯两头散。注意:我的搜索词里头有一个“在”字,谷歌一脚把它踢飞,我也泪奔~



雅虎还行吧,咦?曲十八是什么?是一个风流才子吗?反正我是不知道,大家有知道的M我。

终于轮到终极Boss出场了,老实说,我不写这篇文章还不知道宏哥的分词技术能够强大到如此的地步!它将我的查询词用三种方法来分词。先下一下这三张快照:







为什么百度会存在多种分词版本?正如我在“授谷歌绝杀百度的独孤九剑”那篇文章里提到,优秀的分词策略是这样:尽量不拆分,需要拆分时,先把长的拆成中的,如果结果还是少,再把中的拆成短的。

当然,这是原则,执行过程中却并不一定严格按照这种拆分来排序,要看别的参数。在百度里搜“谁在用吉它弹奏一曲十八摸”,有三条搜索结果,其中只 有第二条是包括了完整的“谁在用吉它弹奏一曲十八摸”,排在第一条的结果是“谁在用吉他弹 奏一曲十八摸”,注意,红色部分与使用的查询语句不同。使用&ldquo

赞助本站

人工智能实验室
AiLab云推荐
推荐内容
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港