当前位置：人工智能实验室> 自然语言处理 > 孙茂松教授谈中文信息处理领域面临的机遇和挑战

孙茂松教授谈中文信息处理领域面临的机遇和挑战
来源：互联网发布日期：2011-09-06 14:26:58 浏览：17838次

导读： 评测与选购新品走廊先睹为快视点透析电脑与人专家访谈 Internet/ 电子商务使用技巧疑难解答技术趋势技术专题杂志订阅站点目录转载联系广告业务请您指正请您留言在线投稿有奖调查曾几何时，中文信息处理和财务软件被看作是国外厂商最难以进...

评测与选购
新品走廊
先睹为快
视点透析
电脑与人
专家访谈
Internet/
电子商务
使用技巧
疑难解答
技术趋势
技术专题

杂志订阅
站点目录

转载联系
广告业务

请您指正
请您留言
在线投稿
有奖调查

曾几何时，中文信息处理和财务软件被看作是国外厂商最难以进入、最易形成我国技术壁垒的两大领域。而随着方正排版系统、汉王手写识别系统和中文之星等技术的发展，中文信息处理领域闪现出的一道道亮丽的风景，也确实没有让国人失望。但就在国产厂商还来不及“孤芳自赏”的时候，国外厂商诸如Microsoft、IBM等纷纷在中国建立研究院和研究中心，并把中文信息处理作为其重要的研究方向之一。技术、市场、人才的空前压力随之而来，优势在不断地缩小，危机在不断地加剧，我们应该如何保住原有优势、把握中文信息处理的发展趋势呢？让我们听听清华大学计算机科学与技术系副主任孙茂松教授的看法。

信息—中国造

——孙茂松教授谈中文信息处理领域面临的机遇和挑战

本刊记者郭弘

---- 问：提起中文信息处理，人们想到最多的恐怕是中文之星、汉王手写识别等系统，然而发展到今天，中文信息处理涉及的应用领域已远远不止这些了。首先，您能否为我们介绍一下中文信息处理包括哪些应用领域？我国中文信息处理领域的发展现状如何呢？

---- 答：概括地说，中文信息处理可分为字处理平台、词处理平台和句处理平台这3个层次。字处理平台的研究与开发，包括汉字编码输入、汉字识别（手写体联机识别与印刷体脱机识别）、汉字系统及文书处理软件等。应该说，这些在内核上与词处理平台关联不多的技术，都已经比较成熟了，市场份额也大势已定（如五笔字形、汉王、中文Word、中文之星、金山WPS、RichWin等），可继续生长的空间很小。现在的关键是词处理以上平台的研究。

清华大学计算机科学与技术系
副主任孙茂教授

---- 词处理平台上最典型、最引人瞩目的应用领域是面向Internet的、文本不受限的中文检索技术，包括通用搜索引擎、文本自动过滤（如对网上不健康内容或对国家安全有危害内容的过滤）、文本自动分类（在数字图书馆中将得到应用）以及个性化服务软件等。目前影响比较大的商品化中文通用搜索引擎有雅虎、搜狐、新浪网等，但这些只用了基于字的全文检索技术，或者仅做了简单的分词处理，性能还有待于提高。国内研究机构做得比较好的是北京大学的天网（http://pccms.pku.edu.cn:8000/gbindex.htm），它用了中文分词和词性自动标注技术，但不足之处在于覆盖能力有限，设计上也稍嫌粗糙。词平台上另一个重要应用是语音识别。单纯依赖语音信号处理手段来大幅度提高识别的准确率，已经很难再有大的作为了，必须要借助文本的后处理技术。现在最具代表的产品是IBM的中文ViaVioce，微软中国研究院也有表现不俗且接近实用的系统。国内在做这方面工作的有清华大学计算机系、电子系、中科院声学所和自动化所等，但从技术走向市场还有一段距离。属于这个平台的其他应用还有文本自动校对、汉字简繁体自动转换等。

---- 句处理平台上的重要应用主要有两方面：一是机器翻译，虽然目前机器翻译的质量还远远不能令人满意，但挂靠在Internet上，就找到了适当的舞台，无论对中国人了解世界（英译汉），还是外国人了解中国（汉译英），都大有裨益，潜在的市场十分可观。“金山快译”软件受到市场的欢迎，就是一个有说服力的旁证。此外，雅信诚公司推出的针对专业翻译人员的英汉翻译辅助工具CAT，虽然没有采用全自动翻译的策略，但定位及思路都非常好，不失为另一个有前途的发展方向。句处理平台上另一方面的重要应用是汉语文语转换，不诉诸句法分析技术以获得句子的韵律结构，要获得理想的自然度是不可能的。“金山词霸”里嵌入了英文文语转换技术，相信用户将对这一功能有深刻的印象。

---- 总的说来，字平台研究已快成昨日黄花；句平台上的研究还很薄弱，离实用还有一段距离；而词平台上的研究，难度较句平台容易，且经过十几年的努力，成果也比较扎实，随着Internet的发展，已经到了厚积薄发的时候。

---- 问：如您所述，Internet为中文信息处理的研究提供了广阔的空间，那么，您认为当前最具应用价值的中文信息处理技术有哪些？哪些是技术上相对成熟的、短期内有应用可能性的技术？

---- 答：那些在Internet上能用并且好用的技术，其价值将越来越凸显出来。我认为目前最具现实性和可能性的语言处理技术或者说本身研究相对成熟、潜在应用最广泛的技术，非中文自动分词和词性自动标注系统莫属。所谓自动分词就是由计算机在中文文本的词与词之间加上空格。它看似简单（它也的确是最低层次的语言处理，相对句法分析、语义分析，难度要大大降低），但对于Internet上的中文文本处理，却是极为关键的步骤。中文分词研究遇到了不少“拦路虎”，如切分歧义处理、生词处理等，这些问题都亟待解决，而英文由于基本上没有分词问题，所以英文搜索引擎的功效比汉语搜索引擎要好许多。

---- 与分词相配套的还有词性自动标注技术，也就是把句子中兼类词的词性根据上下文惟一地确定下来。在搜索引擎中，虚词一般没有检索意义。英文的虚词（如介词in、at）很容易被剔除，汉语却不敢这么随意，如“邓在军”、“于在河”中的“在”“于”显然就不能丢掉。如果中文文本做了分词和词性标注，后续的处理技术其实都可以从英文处理技术中照搬过来，所以这两项技术是最基本也是最关键的。国内这方面的相关研究已进行了十几年，清华大学计算机系、北京大学计算语言学研究所和山西大学计算机系等都有接近实用的实验系统。

---- 其他深层次的语言处理技术，如名词短语捆绑、句法分析、语义分析等，用于Internet范围内的非受限领域，我认为短期内还没有成熟的应用。当然，这些比较高端的技术针对某些特定任务（如词汇量受到限制的电话语音查询），能够起到不可或缺的作用。

---- 问：有人曾说中文处理是外国厂商不易进入的、最易形成我国技术壁垒的领域，然而我们看到，Microsoft、IBM等公司纷纷在中国建立研究院和研究中心，并把中文信息处理作为其重要的研究方向之一。您认为面对这种情况，我们应该怎么做才能保住自己在这一领域已有的优势呢？

---- 答：应该说，如果现在还有人讲什么“壁垒”，那是自欺欺人。科学无国界，语言研究也没有国界。过去中国IT市场小，人家可能根本就没打算攻城略地，我们自然可以自诩为所谓的“壁垒”。而现在国内IT市场的发展前景已经引起了外国厂商的关注，情况就有所不同了。我们不妨分析一下，在人才方面，外国厂商与国内企业相比只强不弱，在组织结构、资源配置方面比国内合理，在公司内部的资源共享方面比国内做得完善，在资金、市场上的优势就更不用提了。至于技术方面，只能说我们在中文信息处理领域比人家早做了几年，多一点Know-How，但总的来说，危机感是相当严重的。

---- 我认为，在这种情况下，政府应持续加强对这一研究领域的投入。中文信息处理一直得到了国家自然科学基金的资助，但渠道比较单一，强度也偏弱。研究经费不足迫使我们不得不把一些技术或资源转让给跨国公司，多少有点“饮鸩止渴”的味道。最近情况有较大改善，中文信息处理得到了国家重点基础研究发展规划的支持，资助强度上了一个数量级，但还不够。对我们目前尚掌握一定技术优势的方向，如中文自动分词，一定要集中力量，在局部上形成拳头，以点带面撕开突破口。此外，还应组织好跨领域、跨单位的互补型强强联合，设法建立得心应手的研究团队，靠事业、待遇、感情稳住骨干人才。

---- 问：请您介绍一下目前中文信息处理领域国际上的热点及最新研究动态如何?有哪些发展趋势？

---- 答：中文信息处理最新的热点问题与国际上自然语言处理的热点问题基本一致。当前的热点并且可以预期在今后几年会持续升温的研究领域主要有4个。第一个是面向Internet的文本信息检索、过滤、分类、摘要等领域。目前国外已经研制出了以自然语言为查询接口的Internet搜索引擎，用户不必键入关键词，而是简单地敲一句话即可作为查询的命令。有代表性的系统如AskJeevs（http://www.ask.com），虽然目前它的效果并不算好，但是基于自然语言接口的搜索引擎无疑是一个非常正确的方向。此外，文本信息与音频、图像、视频等多媒体信息相结合，共同作用以完成搜索任务是一个不可忽视的发展动态。文本过滤、个性化服务等技术在国家安全方面也大有用武之地。虽然Internet上的网站都是公开的，孤立地看似乎没有什么情报价值，但系统性地搜集起来，形成整体再加以分析，就会产生出乎意料的军用或商用价值。

---- 第二个领域是Internet环境下的机器翻译系统。最新趋势是基于实例的方法与基于规则的方法融为一体。美欧以前主要做英、日、德、法、俄语之间的翻译，而现在美国国防部开始支持汉英翻译的项目。可见，机器翻译无论在民用还是在军用领域都是很重要的。

---- 第三个领域是语音识别。西方普遍认为，语言识别将形成很大的市场。例如,今后手机会越做越小，以至于无法按键；Internet会进入汽车，用户可以一边驾车一边通过语音上网；民航无人值守电话查询等专用系统等也有望问世。

---- 第四个领域是大规模的文本挖掘，不可避免地要用到自然语言处理技术。中文信息处理必须做好准备，迎接来自这4个领域的挑战。

---- 此外，围绕上述领域的配套资源建设也正在世界各地紧锣密鼓地展开。比如，语音识别系统之所以能够从实验室走向初步的实用，就是因为最终利用了经过初级加工的大规模语料库来训练统计模型。Microsoft的拼音输入法也是类似的做法。所以当务之急是系统地建设针对大规模真实文本的语言资源库，即经过多级深层次加工的语料库以及语法库、语义库等。这些基础的东西做得不扎实，中文信息处理就很难上一个大台阶。

---- 还有一点需要强调指出的是语义研究，包括静态的语义分类体系以及动态的动词论旨结构体系、形名约束、名名约束等，将是今后几年中文信息处理学界所普遍关心的研究重点。它涉及了一系列理论问题，是一项很大的工程。国际上在语言计算中运用得最为广泛的语义系统当推美国的WordNet，另外Microsoft有MindNet, 欧洲也参照WordNet构建了面向欧洲主要语言的EuroWordNet。国内有影响的语义系统是董振东先生的“知网”（HowNet），规模相当可观，即使与国外流行的语义系统相比，也颇具特色，并且只要是用于学术研究而不是用于商业开发，就可以免费下载（http://www.how-net.com）。

---- 问：您觉得在中文信息处理的研究方面我们应该注意些什么?

---- 答：中文信息处理主要是计算机科学与语言学的交叉，所以在研究过程中要强调这两个学科之间的交流与实质性合作。目前全国人大副委员长许嘉璐教授主管的国家社科研究“九五”规划重大项目“信息处理用现代汉语词汇研究”，集中了国内一大批语言学和计算语言学方面的专家学者，协力进行汉语词平台以上的一系列基础性研究，内容包括汉语词汇、分词、词性标注、语料库、语义库、短语分析等。这样的合作方式和研发队伍都是难能可贵的。