展会信息港展会大全

中文分词连写的问题与对策
来源:互联网   发布日期:2011-09-16 09:36:16   浏览:27851次  

导读:中文分词连写的问题与对策 - lkt916的博客 - 和讯博客...

中文分词连写的问题与对策 [引用 2007-02-09 20:42:22]   

中文分词连写的问题与对策??

 

曹 德 和??

 

(安徽大学 中文系,安徽 合肥  230039)?

?

  要:文章通过质疑和答疑表述了以下看法:(1)就日常交际来说,西文需要分词连写而中文则未必,因为后者可以借助汉字特征辨识词界;(2)现在越来越多的人赞成实行中文分词连写,主要因为这有助于中文信息处理;(3)实行中文分词连写有利有弊,最大弊端是它给书写增添了负担;而开发推广中文词式书写编辑软件,不失为化解矛盾的可行办法。

关键词:中文分词连写;利与弊;矛盾化解办法?

中图分类号: H102 文献标识码: A 文章编号: 1009-5101(2006)01-0021-06

 

基金项目:本文为安徽省社会科学基金项目“中文分词连写应急性和试点性研究”研究成果

之一。项目编号:AHSK03—04D15?

作者简介:曹德和(1950- ),男,南京人,安徽大学中文系教授,博士,博士生导师。

 

近年来经常看到讨论中文分词连写的文章,这表明它已经成为新的研究热点。对于研究者来说,有些问题是不能回避且必须认真思考的。譬如,为什么过去国人引入欧式标点时没有引入分词连写?又如,为什么近年来越来越多的国人赞成实行中文分词连写?再如,实行分词连写有益于中文信息处理,但是给中文使用尤其是书写带来麻烦,在利弊同在的情况下怎么办?本文将集中讨论并回答上述问题。??

 

一、为什么过去国人引入欧式标点时没有引入分词连写

 

欧式书写体式除了标点以外还包括分词连写,即在分清词界的前提下实施连续书写。在采用表音文字的欧洲,分词连写方式很早就已出现。它的最初使用带有随意性。1884年在古城戈提那 (Gortyn)一家磨房墙上发现的希腊化时代(公元前323-前30年)遗物——12栏民事法典铭文,其中多数词语连写,少数词语分写。后来分词连写方式日趋稳定。从古罗马大演说家西塞罗(公元前106-43年)演说稿《在韦勒斯》手抄本残篇可以看出,那时分词连写方式成了书面语不可或缺的一部分——??

K·DENQUE·ILLE·IPSE〔…〕·MISERICORDIAM·VICTI·/FIDEM?

(·K·而且·他·自己〔……〕·宽容·被征服者·/可信赖)??

上述手抄本写于公元1世纪的意大利,抄写人依循当时习惯,采取了分词连写形式。与最初借助“竖线”标示词界有所不同的是,那时罗马人是通过加“间隔点”的方式来表明词与词界线的(字列起首的“K”表示一句的开头,字列中的“〔……〕”表示原件的文字残缺,“ / ”为抄本使用者添加的表示较大停顿的符号)。其后看到的以留空方式标明词界的做法始于公元7世纪。现存的8世纪初在英格兰制作的《通俗拉丁文本圣经》抄本,采取了词间留空的形式。法兰克王国加洛林王朝查理大帝统治西欧时期(公元748-814年),在英格兰学者阿尔昆(Alcuin,约732-804年)协助下进行教育与文字改革,推行规范化的小写体字母(加洛林小写体字母),小写体和大写体并用,词与词之间大多留有空格。[1](P91~93)在俄

国学者伊斯特林所著《文字的产生和发展》中,有一张反映公元9世纪拜占庭王朝正字体的影印件:??

 

 

 

 

其中词与词之间清晰地留了空格。[2](P319)建立在留空基础上的分词连写方式,到了公元8-9世纪已在西欧国家普遍流行。该方式被俄国人吸纳,则是16世纪以后的事情。?

书面上留空与添加点号并无实质区别。就作用来看,留空和加点都是为了显示话语的自然停顿和结构单位。不同在于,前者主要用于显示小停顿小单位,后者主要用于显示大停顿大单位。借助一定形式显示话语的自然停顿和结构单位,不仅有助于诵读,而且有助于理解。正因为如此,同标点符号一样,分词连写方式受到普遍欢迎。时至今日,分词连写方式已在使用纯表音文字的国家广泛使用。?

清末民初,欧式书写体式开始受到国人的关注。照理说,其标点符号和分词连写方式是同时进入国人视野的,但它们并未受到同样礼遇。严复在1904年出版的《英文汉诂》中,率先将欧式书写体式运用于中文,但该著只借用了欧式标点符号而没借用欧式分词连写方式。胡适等留美学人于1915年创办的《科学》杂志,“符号和句读,全用西式”(陈独秀语),但也是将分词连写方式弃置一边。1919年4月,马裕藻、周作人、朱希祖、刘复、钱玄同、胡适等人在国语统一筹备会第一次大会上向北洋政府教育部提出《请颁行新式标点符号议案》,议案“大致是采用西洋最通用的符号,另外斟酌中国文字的需要,变通一两种,并加入一两种”。无独有偶,这一顺利获得通过的议案,依然只对欧式标点符号情有独钟。[1](P79~81)值得注意的是,国人在借鉴欧式书写款式上表现出的厚此薄彼态度是长期的和一贯的,它不仅反映于清末民初,而且延续到建国以后。上个世纪50年代初,周有光等人曾经仿效欧式分词连写格式排印过两个小册子,印出来以后大家都说不好看,最后胎死腹中没有出版。1952年,曹伯韩的《语法初步》尝试性地采用了分词连写格式,出版后社会反应冷漠,以致学界很长时间不敢再提此事。?

林穗芳说该史料表明中文也曾使用过分词连写方式(原话为“采用间空的办法来分词)”。[1](P67~71)以上说法有失偏颇。事实上,在前述例子里,为“间空”分割的不是词而是句子,何况这段文字并不能代表典型的中文。概言之,我国素有使用标点符号的传统而没有使用分词连写方式的经历,所以,在借鉴欧式书写体式时,国人仅仅引入其标点符号,而没有效法其分词连写。?

或许有人会问,汉语史上为什么从未出现过自源性的分词连写方式?我们以为,这是由记录汉语的书面符号即汉字决定的。有人称汉字为平面型表意文字。之所以这样称呼,一是因为汉字呈方块形,二是因为汉字以词义或语素义为主要表现对象。从先秦到清末,汉语书面语一直为文言文所主导。在文言文中,词界通常也就是字界,字界通常也就是词界。既然词界已经通过字界得以彰显,自然无需借助分词连写来显示词与词的界线。清末以后,白话文成为汉语书面语的基本形式。在白话文中,字界与词界之间的整齐对应关系不复存在,但汉字的平面型特征及昭示界线的功能并没有丧失,汉字的表意性也没有丧失。凭借着它们的帮助,汉语使用者不仅可以继续沿用传统的挨字连写方式,而且并没有因此而感到有多大不便。当然,没有感到不等于没有。事实上,挨字连写造成的不便是客观存在的。例如:“白天鹅在水里游来游去。”“今天学生会讨论这个问题。”这两个句子显然存在着阅读和理解上的麻烦,而这麻烦跟挨字连写方式不无关系。平心而论,挨字连写确实在一定程度上给汉语书面语造成了词界模糊、语义多歧的问题。不过,借助汉字本身的特征以及汉字与语词相对稳定的联系,加上有语境提示,这类问题最终都能为读者所化解。?

进一步的追问使我们更为深入地了解到,国人之所以对分词连写普遍反映冷淡,除了因为汉语不曾有过词间留空的历史外,更因为汉字的区别性特征明显。在日常交际中,无论过去还是现在,人们都可以靠着前述特征在挨字连写状态下准确辨识词界。??

 

二、为什么近年来国人对分词连写方式产生了兴趣?

 

前面谈到,50多年前周有光等人曾经作过将分词连写方式引入中文的尝试,结果以失败告终,不得不偃旗息鼓。出人意料,近年来有些学者明知可能重蹈覆辙,但义无反顾地再次将早已被束之高阁的问题重新提出来。?

有意思的是,在新近展开的有关中文是否应当实行分词连写的讨论中,打头阵唱主角的不是语言学家而是信息处理专家。?

1987年,我国计算机产业奠基人之一陈力为院士基于信息处理的需要,推出了近年来提倡分词连写的第一篇力作——《当前中文信息处理中的几个问题及其发展前景》;1995年,我国信息处理专家俞士汶和周锡令基于同样原因发表了近年来较早倡导分词连写的另外两篇重要文章——《关于受限的规则汉语的设想》和《软件书籍中译本的可读性和几点看似荒谬的建议》。不久,一直密切关注中文书写体式改革的语言学家陆丙甫、彭泽润先后发表了题为《也谈中文的改革》和《文字中的字间空隙和词间空隙》的文章,参与有关讨论。随着其他学者的陆续介入,是否应当将分词连写方式引入中文的新一轮讨论全面展开。根据不完全统计,1987年至2003年,已经发表的相关文章有40多篇,其中30多篇对实行分词连写持肯定态度。而这30多篇文章的作者,绝大多数为信息处理专家。?

对于中文分词连写的讨论,信息处理专家表现出的热情大大高于语言学家,原因何在?这个问题当然最好由信息处理专家来回答。?

新世纪伊始,我国的两位信息处理专家——米阿伦与冯志伟——曾经进行了一场重要的学术对话。2000年1月,米阿伦在海外媒体上刊出《加个空格好不好》一文,冯志伟读了该文随即撰稿,同年3月于同一媒体发表了《绝妙的空格》一文。?

在前一篇文章中,米阿伦说:“表面上看,这篇文章要讨论的是一个非常小的问题:书写空格。然而,对所有的语言文字的数据管理来说,这一个小小的空格却是牵一发而动全身的问题。……目前,世界上只有极少数语言文字的书写方法没有词界,中文的汉字书写方式是其中之一。……从20世纪60年代研制中文计算机输入到现在,三十多年了,中文信息处理技术的发展还是在输入法和储存检索方面打转,难以上升到使用中文做全面的中文数据管理的水平。其中原因很多,汉字书写方式没有词界是其中最明显的牵制因素。为了能使用中文来实行全面的中文数据管理和赶上世界先进水平,中文书写方式需要增加空格和建立词界标准。”[4]??

在后一篇文章中,冯志伟说:“我非常赞同米阿伦的文章……他提出了汉语书面语进一步改革的一个重要的问题:加空格表示词界。这是汉语书面语改革的继续和发展,为了适应汉语信息处理的需要,我双手赞成进行这样的改革。……汉语书面语是不分词的,词与词之间没有空白,而计算机检索、分析和处理中文的书面语,几乎都是要以词为单位的。这种没有词的界线的文本,计算机处理起来,首先就要花很多工夫来分词,找出词与词之间的界线,这往往要花费大量的人力和时间,而效果并不理想。……如果汉语的书面语能够像西方语言的书面语那样分词书写,将给计算机的中文信息处理带来巨大的好处,也将给国家和社会节省巨大的开支。”[5]??

由以上对话不难看出,米阿伦等信息处理专家积极提倡中文分词连写,主要因为传统的挨字连写方式给中文信息处理带来不少麻烦,不仅导致了大量的人力和财力浪费,而且造成中文信息处理水平长期在低层次上徘徊;而改变书写体式将会使信息处理专家摆脱无谓的牵制,集中人力和物力,用于尖端课题的研究,使我国计算机利用水平早日达到世界一流。?

俗话说:“敲锣卖糖,各管一行。”我国语言学专家提倡中文分词连写,尽管不是没有考虑到信息处理的需要,但主要还是从本学科立场出发。当年曹伯韩提倡中文分词连写,理由是:“割裂汉语的多音节词,是不科学的。为了文字科学化,必须打破单音方块的结构形式,实现词儿连写的原则,使字和词统一起来。”[6](P14~15)近年来,陆丙甫提倡分词连写,根据是:“分词连写,就其本质而言,其实就是标点功能的扩展和深化。空隔表示词和词之间的分界,就像句号表示句子和句子之间的分界一样。因此分词连写的功能,可以从标点的功能看出。…… 如果现代中文采取了分词连写,至少可以消除许多歧义,省去今天读者的猜测和后人的考据。……合理的分词连写可以使阅读变得更加轻松愉快!”[7](P6)?由此可知,我国语言学专家主要是为了促进语文体式的理想化和科学化而提倡中文分词连写。?

?

 

三、如何化解中文分词连写利弊同在的矛盾?

 

是否需要将分词连写方式引入中文的新一轮讨论,虽说由1987年陈力为那篇论文拉开序幕,但讨论的真正展开则是在1995年以后。相对上个世纪中叶的讨论来说,这次讨论无论在规模上还是在质量上都达到了无可比拟的高度。但不能不承认这样的现状,即:从一般语言使用者到专业语言研究者,对于将分词连写方式引入中文的倡议普遍缺乏热情。不言而喻,这是因为他们觉得没有必要改变原来的中文书写体式。?

我们不能因为绝大多数人觉得没有必要就断定真的没有必要。有无必要的结论不能建立在感觉的基础上,而应当建立在调查分析和比较权衡的基础上。事实上,对于改革书写体式的积极意义,特别是它必将带来的巨大的经济价值,绝大多数人并不清楚。如果他们知道改革书写体式的提议得到诸多一流学者的认同,并且认真阅读过那些论述改革意义的文章,可以相信他们定会有所改变。我知道这样一件事:有位年高德劭的著名语言学家,起初不赞成将分词连写方式引入中文,后来读了冯志伟的有关文章,不仅转变了态度,而且献计献策,发表了很有价值的意见。毫无疑问,随着中文分词连写意义宣传的逐步深入,许多人会像那位从善如流的前辈一样,成为推进中文书写体式改革队伍中的成员。?

近年来中文分词连写的提倡者们不断加大宣传力度,以争取有更多的同仁支持这项改革。但似乎存在这样的现象,即有些人比较关注实行中文分词连写最终将给国家带来怎样的好处,而不大考虑目前这样做会给语言使用者造成怎样的不便。?

或许有人觉得,能有多大不便呢?不过改变书写和阅读习惯而已。如果这样想问题就过于简单化了。书写和阅读习惯并不是可以轻易改变的。?

君不见,那些中文分词连写提倡者,有几人带头垂范、身体力行?当然,这并不是他们不愿意改变习惯,主要是这样做有碍文思,影响写作速度。另外,现有刊物不愿接受分词连写格式的稿件,为了让作品发出去,不能不采用挨字连写方式。在此情况下,书写习惯事实上很难改变。?

要改变阅读习惯也不容易。至少说现在改起来很难。因为目前人们接触的中文作品,只有个别采用分词连写方式,绝大多数都是沿袭传统书写形式,即便你有心改变阅读习惯,但一傅众咻,结果可能是怎么也改不了。?

无需否认,实行中文分词连写,有益于中文信息处理,但同时也给中文使用尤其是书写增加了负担。利弊共存,怎么办??

有人认为解决矛盾应当以机器服从人为前提。以上意见自然是有道理的。但诚如冯志伟所言,维持原来的书写体式,将全部希望寄托于中文自动分词设备的开发,事实证明这条路走不通。(原话为:“汉语文本自动分词,离真正实用的目标,还有很大的距离。至于大规模真实文本的高精度自动分词,还是幻想中的事情。”[8])?

在2004年6月召开的“汉字书写系统改进国际研讨会”上,我提出:中文分词连写势在必行。但目前缺乏普遍推行的条件。考虑到国家信息工程发展时不我待,可以让出版界率先行动,编辑发行作品时,利用分词软件,将挨字连写文本转换为分词连写的文本,即率先在出版界试行“机辅”分词连写。?

会议结束后,我决定将上述想法付诸行动,于是向省里递交了“中文分词连写应急性和试点性研究”立项申请。申请很快获得批准。得悉这一消息后,湖南大学信息处理专家罗海清教授主动表示,愿意为“词式书写编辑软件”提供技术支持。海峡两岸合办的《中文》杂志以及《毕节师范学院学报》热情表示,在“词式书写编辑软件”开发出来后,愿意率先试用。

尽管存在经费不足的困难,而且即便研究成果拿出来,能否得到社会和政府承认也很难说,但我们仍将坚持朝前走。因为干比等好。?

历史经验表明,刊物先行好处甚多:刊物具有其他手段无可比拟的宣传效果,在刊物上进行书写体式改革能够产生广泛影响。刊物具有示范作用,在刊物上进行前述改革,可以使支持者获得效法的范式,而不致无所适从。当年胡适、陈独秀等人进行标点符号改革,就是首先从他们主办的《科学》和《新青年》杂志做起。?

强调出版界率先推行中文分词连写的意义,不等于否认其他研究和实验的价值。分词连写在阅读理解上优于传统书写方式,这点大家都承认,但究竟具有多大优越性,需要通过调查、分析、比较,拿出证明数据来。另外,对于学习接受新的书写体式来说,旧习惯的干扰有多大,也需要通过调查、分析、比较弄清楚。李德健等人的实验报告指出,使用挨字连写方式年头越长,在分词连写阅读实验中的表现越差。上述结论值得重视。为什么日文并行使用分词连写和挨字连写两种方式,低年级教材使用前者,高年级教材以及一般文本使用后者,可能就是因为注意到上述情况。事实表明,为了保证书写体式改革的正确决策,需要加强“手动”分词连写的调研。?

在以上讨论中,我们事实上已就如何化解中文分词连写利弊共存的矛盾提出了方案,这就是:一方面做好宣传工作,让全社会了解书写体式改革与信息产业发展的关系,坚持改革不动摇;另一方面尊重书写习惯,充分认识改变书写习惯的艰巨性,对于群众不愿改变书写习惯给予应有的理解。在全面推行中文分词连写尚不具备条件的当前,克服急躁情绪,力戒草率行事。考虑到信息产业发展刻不容缓,为了扭转中文信息处理长期为传统书写方式所拖累的局面,让出版界率先实行“机辅”分词连写。同时,积极推进“手动”分词连写调研,为未来改革的全面铺开做好基础工作。?

对于如何化解中文分词连写利弊同在的矛盾,不敢说以上方案为最佳方案,但敢说它不失为一个可供参考的方案。

 

参考文献:

[1]林穗芳.标点符号学习与运用[M].北京:人民出版社,2000.?

[2][俄]B·A·伊斯特林.文字的产生和发展[M].北京:北京大学出版社,2002.[3]复旦大学语言研究室.陈望道文集(第三卷)[C].上海:上海人民出版社,1981.?

[4]米阿伦.加个空格好不好[N].ChinaByte,2000-01-20.?

[5]冯志伟.绝妙的空格[N].ChinaByte,2000-03-10.?

[6]曹伯韩.字和词的矛盾必须解决[J].中国语文,1952,(8).?

[7]陆丙甫.也谈中文的改革[J].中文信息,1997,(2).?

[8]冯志伟.给汉语书面文本一个词界限——“空格”[N].“语言理论通讯”网站,

 2003-12-08.??

 

【责任编辑  李开拓 】

(该文发表于《北华大学学报》(社会科学版)2006第1期21—26页)

 

标签: 语文现代化   汉语文本改进   词式书写   .

阅读() | 评论() | | 推荐 | 举报

我 顶 觉得精彩就顶一下,顶的多了,文章将出现在更重要的位置上。

赞助本站

人工智能实验室

相关热词: 中文分 词连 问题

AiLab云推荐
展开

热门栏目HotCates

Copyright © 2010-2024 AiLab Team. 人工智能实验室 版权所有    关于我们 | 联系我们 | 广告服务 | 公司动态 | 免责声明 | 隐私条款 | 工作机会 | 展会港