展会信息港展会大全

实例分析中文分词技术 关键基于词典匹配和搜索统计
来源:互联网   发布日期:2011-10-05 16:22:36   浏览:17630次  

导读:实例分析中文分词技术 关键基于词典匹配和搜索统计 ,新手站长论坛...

最近有朋友问我的站点除了把合肥SEO、合肥网站推广做上首页,而安徽SEO、安徽网站推广、安徽网站优化也排在百度首页。所以借着这个契机,跟大家聊聊百度的中文分词技术,也都是自己的一些理解,有更多的想法欢迎交流。SEOer都知道,搜索引擎工作原理中有一步预处理,将抓取的页面进行几道工序处理下,为之后的排名机制做好初步准备。在预处理过程中,就有分词这一道技术工序。英文是以一个单词作为基本单位,单词之间用空格分割连成一句话,中文是以字为单位中间没有连接符成为一句话。所以,中文分词与英文分词差别很大。而从现有的搜索引擎特别是百度的中文分词研究表明,主要是基于词典匹配和基于统计。1、基于词典匹配是指将目标词或句与已有的词典中的词条进行匹配处理,扫描之后匹配成句、词、字形式。(1)按照扫描方向不同,可分为正向匹配和逆向匹配。(2)按照匹配长度优先级不同,可分为最大匹配和最小匹配。

赞助本站

人工智能实验室
AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港