当前位置：人工智能实验室> 自然语言处理 > 语义分析能让计算机像人一样理解web信息

语义分析能让计算机像人一样理解web信息
来源：互联网发布日期：2012-12-30 11:19:00 浏览：62274次

导读：万维网的蓬勃发展少不了HTML的功劳，借助HTML标签，浏览器才知道如何呈现标签内的信息。例如，普通的HTML语句会告知浏览器以某种格式显示字符串Avatar。然而，HTML标签虽然简洁实用，却没有定义字符串Avatar含义方面的任何信息，Avatar既可能指3D卖座大片《...

万维网的蓬勃发展少不了HTML的功劳，借助HTML标签，浏览器才知道如何呈现标签内的信息。例如，普通的HTML语句会告知浏览器以某种格式显示字符串“Avatar”。然而，HTML标签虽然简洁实用，却没有定义字符串“Avatar”含义方面的任何信息，“Avatar”既可能指3D卖座大片《阿凡达》，也可能指一种人物头像。如果你现在想用搜索引擎通过搜索“Avatar”来查找《阿凡达》影片的相关信息，也许搜索引擎显示的却不是你想要的内容，问题出在哪呢？

问题就在于搜索引擎无法从HTML语言里读出网页数据的含义，万维网上的内容仍旧需要人来过滤理解，计算机无法自动识别出特定语义的数据。有鉴于此，6月2日，三大IT巨头Google、Microsoft和Yahoo联手推出了schema，希望以此鼓励网站管理员开发包含语义标注的网页，从而使所设计的页面数据能够被搜索引擎所理解，这样一方面可以加快搜索速度，另一方面也有利于网站管理员更具针对性地将内容呈现给访客。

毫无疑问，这是一个标志性的举措，如果它真能付诸实现，最终促使“计算机像人一样理解web信息”的技术的普及，那么它将带来一批几乎能够和我们人一样理解在线信息的智能应用和服务。万维网可能从此进入一个新的发展阶段。

先让我们来看看三大IT巨头所推出的这个全新的schema吧。该站点提供了模式的集合，网站管理员可以用这些模式来标注他们的页面，这样网页便可以被三大主要搜索引擎Google、Bing和Yahoo!所识别。搜索引擎依靠标注来提高搜索结果的准确性，让人们更容易找到希望看到的页面。

众所周知，许多网站是由结构化数据生成的，而这些数据一般存放于数据库中。当数据用HTML格式来表示时，很难重现结构化数据的原貌。也就是说，HTML实际是面向文档的，而非面向文档中的数据。许多应用程序，尤其是搜索引擎，如果能够直接访问这类结构化数据，则可以大大提高效率。网页标注起到的正是这个作用，有了它，搜索引擎便能理解页面的信息，为用户提供更加丰富的搜索结果，使用户更容易找到需要的信息。标注还能让利用结构数据的工具和应用程序发挥功效。

schema为网站管理员提供了共享的标注词集，网站管理员可以据此选定标注模式，他们对网站的投入就可获得最大的回报。

探究schema的实质，我们不难发现，这其实是语义网的具体应用。所谓语义网，就是万维网上能够让计算机理解语义的数据web。它通过插入计算机可读的元数据来对超文本语言加以扩展，这些元数据可描述它们互相之间的关系，使得网页处理起来更加智能化。语义网最早是万维网之父蒂姆·伯纳斯-李于1999年提出的一种“愿景”，其初衷是要驱动web技术的发展，更充分地挖掘万维网的潜力，使众多web应用能摆脱人工干预的束缚，给用户以更完美的体验。伯纳斯-李在提出概念的同时，还设想了其体系结构，具体如下：

1）第一层：统一编码（Unicode）与统一资源定位符（URI），这是语义网的基础，其中，Unicode负责处理资源编码，而URI负责标识资源。

2）第二层：可扩展标记语言（XML）+名字空间+XML模式，主要用来表示数据内容与结构。

3）第三层：资源描述框架（RDF）与RDF模式，主要用来描述资源及其类型。

4）第四层：本体语言（ontology language），主要用于描述各种资源间的联系。

5）第五层：逻辑层，在下面四层的基础上进行逻辑推理操作。

6）第六层：验证层，根据逻辑陈述进行验证以得出结论。

7）第七层：信任层，在用户间建立信任关系。

以上七层中，第二、三、四层是语义网的基石，也是主要的研究对象。语义网相关标准的发展一直在万维网联盟（W3C）的监管下进行。经历十多年的发展之后，W3C所推荐的语义网技术已有不少，并可在各种环境下使用。同时还涌现了其他类似的语义网技术。不过总体来看，语义网的普及非常迟缓，这也遭到了一定程度的质疑和批评。

从语义网的基础性技术来看，目前，比较流行的有三类：RDFa（资源描述框架属性）、微格式（microformat）和微数据（microdata），下面分别对它们作一些简要介绍：

1） RDFa最早由马克·伯贝克提出，最初是一份W3C记录，标题为《XHTML与RDF》，后呈交给W3C的2004年技术交流会的语义网兴趣组进行讨论，并于当年写入了XHTML 2.0第六版草案里。RDFa的目标是为任何基于XML的语言添加元数据，2008年10月，RDFa成为W3C推荐标准。

2）微格式是一种基于web的语义标注方法，希望通过重用已有的HTML/XHTML标签来表示元数据及其他网页属性。该方法支持软件自动处理面向终端用户的各种信息。相比于万维网联盟的RDFa，微格式可谓出身草根，非营利性的电子商务推广组织ComerceNet目前在对微格式社群及其站点microformats.org提供支持。

3）微数据是网络超文本技术工作组（WHATWG）HTML 5中的一个规范，用于在已有网页的内容中嵌入语义。搜索引擎、网络爬虫和浏览器可从页面中抽取和处理微数据，以便向用户提供丰富的浏览体验。微数据用到一个辅助词集来描述项和名值对。网页开发者可以自行定制词集。

上述三种技术规范齐头并进，相较而言，RDFa是官方标准，具有权威性，但是W3C在推广RDFa的过程中顾虑过多，一定程度上贻误了发展良机。全球来看，RDFa的普及一直不甚理想。微格式出自民间，语法清晰，但在维护和支持的力度上显然有所不足，甚至在技术发展上有停滞的危险。而微数据是一种较新的技术，WHATWG与W3C也有分庭抗礼之势。在面向用户的层面上，微数据凭借其简洁实用的特性赢得青睐，scheme.org看好它不无道理。

scheme.org网站上就模式选择方面的问题作了如下解释：

1）为什么要创建新的模式？这样对网站管理员、搜索引擎和用户三方均有利。对网站管理员而言，schema提供了单一的标注学习源，你不再需要从不同途径学习各种互有差别的模式。对搜索引擎而言，schema所定义的项类型和属性尤为宝贵，搜索引擎可以获得它们亟需的结构化信息来提高搜索效率。对用户而言，schema保证了他们能获得更佳的搜索结果和更优的上网体验。

2）为何选用微数据构建schema，而非RDFa或微格式？这主要基于实用性方面的考虑。显然，支持多种语法会让网站管理员的文档更加复杂，在定义新格式时开销也更大。微格式虽然清晰简洁，易于理解，却未提供开放的扩展机制，类标签可能与网站CSS冲突。RDFa扩展性不错，且表达能力很强，但语言太过复杂，导致普及缓慢。微数据是最近才兴起的标准，且被添加到HTML5中。它在可扩展性和简洁性上取得了平衡，因而是最适合的方案。Google和Yahoo的引擎对RDFa和微格式的支持还将继续，而且如果RDFa和微格式的普及转好，schema也将考虑支持它们。

3）如果网站已经添加了其他格式的标注，是否需要进行修改？如果网站所加标注已经被三大引擎所用，则还会继续得到支持。不过，改为新的标注格式长期来看不无裨益，因为这样你的网站采用的是三大引擎同时支持的标准。

由以上解释来看，schema的考虑不可谓不周详，W3C在推进语义网的应用上成效并不显著，进展难以令人满意，究其原因，也许正是网站管理员欠缺了一个添加额外标记的理由。而三大搜索引擎支持的schema无疑是为语义网的普及应用打了一针强心剂。正如南加州大学研究语义网技术的丹尼斯·麦克劳德所言，“这将激励人们真正将语义数据添加到自己的网页之中，预测哪些将被采用一直都很困难，但一般来说，除非这里面有对人们有益的事情，否则他们不会做的。而Google、Bing和Yahoo则给了人们一个强有力的理由。”麦克劳德同时表示，schema是一种更简单的、描述网页内容含义的方法，其他的许多此类技术确实很难使用，而schema令人鼓舞的事情之一就是，它看重可用性，因此标注网站就变得十分容易了。

如果多数网页的所有者都按照schema的建议行事，搜索以外的其他业务也将受益。“这些数据可用于任何软件，使得相关的事情交叉关联起来，或者可用来了解不同来源的消息之间的关联。”麦克劳德说。例如，语义信息的广泛应用，或将改进人工智能助手，如去年苹果公司所购进的sirir，或者能够针对新闻文章给出良好建议，因为它们能够确切地指向报道源。

诚然，schema的推出也引发了不小的争议。这只是三家公司的共同行为，并非国际标准。虽然在声明中，schema也表示欢迎其他网站加入这项计划，但难以消除人们对其未来走向的担忧。W3C语义网协调小组成员曼努·斯波尼就第一时间表示“这会妨碍万维网的自由开放，今后人们只能选择使用这些公司的专有标准，其后果不言而喻。”斯波尼认为，三大公司之所以另起炉灶，完全是有意利用自己在搜索引擎上的影响力，用自家的标准取代W3C的国际标准，是一种赤裸裸的商业行为，对语义网的未来发展不利。斯波尼说，微数据或将成为唯一标准，这会限制语义网的能力，因为RDFa显然能做更多事情，它支持许多微数据所不能支持的实例。斯波尼希望三大公司能够修正其对格式的立场。

尽管存在争议，我们广州开利网站建设SEO部却还是对schema的发展充满期待，毕竟它的后台是三大引擎，综合来看，选择微数据也无可厚非，最起码的一点，这有利于语义网的迅速普及。就连斯波尼也承认，“大公司对语义网的认同是一件好事，有了语义网的概念，你将得到更好的结果，如果能够鼓励更多的网站去接受语义网，则也会帮助其他的各种应用。”由此来看，schema或将迎来语义网真正的春天，在不久的将来，语义网不再是愿景，而是我们日常网络生活中须臾难分的实景。