张孝存丨汉字编码纵横谈 - 世说文丛

张孝存丨汉字编码纵横谈

特别声明:本文丛作品多为原创,版权所有;特殊情况会在文末标注,如有侵权,请与编辑联系。

输入法.gif

从世界范围内来看,1970年代信息技术以数据处理为重点,八十年代在数据处理的基础上发展了文字处理技术,推动了办公自动化和无纸张办公室的高速发展。据统计,在计算机应用中,除数值运算和过程控制相当一大部分是进行非数值处理,即语言文字的信息处理。我国的信息产业起步较晚,而且汉字计算机输入又一直被视为“世界计算机的一个难题”。故迄今为止,尽管一些编码方案已赢得了相当多的用户,但仍然属于起步阶段的初步成就,还应大力开拓,勇于实践,将汉字计算机处理技术的研究推向新的层次。

计算机信息输入的最主要的人机接口是西文键盘。这个键盘源于传统的英文打字机的键位安排。面对约定俗成的西文标准键盘,国人自然采取了“拿来主义”的方针。这是顺理成章的抉择。西文标准键盘上的26个字母,已经穷尽了记录其语言所必需的全部书写符号,故根本不存在什么编码问题。而方块汉字不是字母文字。这样,便不得不考虑如何按某种特征进行分类,以便将数目庞大的中文字(词)映射到这二三十个键位之上。于是,便产生了“编码”这个令许多有志者呕心沥血的难题。

其实,汉语信息的输入也完全可以甩开“编码”而如同西文般直接录入。这种快捷有效的方法便是应用汉语拼音。《汉语拼音方案》是目前最优秀的拼写现代汉语普通话的拉丁化方案。它是百年来文字改革运动的结晶,并由全国人民代表大会通过。汉语拼音尽管不是文字,但它可以和国际上拉丁字母文字的信息处理系统、情报检索网络挂得上钩。这个方案作为中国人名、地名拼写标准也已经联合国批准,获得世界公认。它是实行宪法明文规定的“国家推行全国通用的普通话”方针的最有力的工具。遵照全国统一的教学大纲的要求,它正在成为国人人人具备的文化基础知识,必将深深扎根于最广泛的国民知识背景之中。目前,在新华社95个驻外分社中,至少有三分之一的分社用汉语拼音发稿。(注①)这是《汉语拼音方案》作为辅助文字使用的成功尝试。由此可以推断,基于《汉语拼音方案》的汉字录入技术必将成为一支突起的异军,理直气壮的登上中文信息处理的殿堂。而采用汉语拼音连续输入、由计算机自动转换为汉字的中文语词系统就是由西文键盘直接录入汉字的非编码输入系统。这种处理系统可以安装几万条现代汉语词汇,变换正确率高。同时,它具有较高的智能水平,不仅为用户提供了构造新词的方法,而且可以摹拟人脑的记忆和遗忘功能,其易学性首屈一指:汉语拼音+指法训练。然而,变换法遇到来自两方面的质疑。一为“这仍然是编码法输入”;二为“这是曲线改革文字,欲实行拼音化的唐突之举”。对第一种质疑,可以回答:若否认《汉语拼音方案》的辅助文字性质,亦可认为变换法是编码输入(属音码系列)。姑且认为其属于编码法,并不妨碍人们有效的使用它,似乎不必在其归属上大费唇舌。见仁见智,悉听尊便。对第二种质疑,可以回答:劝君不必杞人忧天。用于某一特定设备进行人机对话的外部代码与社会通用文字之间有质的差别。汉字的演变自有其源于其本质属性的内在规律,不是任何一个团体、一个汉字录入方案所能左右的。硬要把汉字录入技术同汉字发展前途这两个性质不同的问题混为一谈,无论从学术研究还是从实用技术角度来看,都未必是明智的。日本的微机经历了大键盘、编码阶段,而变换法的完善才使计算机的大众化获得成功。“他山之石,可以攻玉”。有专家认为:“在日本,‘假名汉字转换方式’占了绝对优势。我国计算机汉字系统输入方式的试验也会以‘拼音转换方式’的胜利而告终。”(注②)对这种颇有见地的预言,不可等闲视之。

历史上的许多事情往往带有戏剧性。在一段时间里,直接处理语言(语言的物质外壳——语音)的音码系列势单力薄;而间接处理语言(语言的书面符号——文字),增加了一道拆分工序的形码先声夺人,占有了汉字处理领域的相当大的地盘。这又如何解释呢?从广义的文化背景上看,方言的分歧需要形码。从不发达的市场经济背景上看,行政干预和商业宣传极易最大限度的利用某些稍纵即逝的机遇。从文字研究的学术背景上看,“汉字不能进入计算机”的可怕断言困扰了许多炎黄子孙。这种种因素的交错作用给形码方案的脱颖而出提供了宝贵的契机,并迅速填补了亟需充实的空白。然而,不久就有人公开提出异议。1989年4月25日上海《文汇报》刊登了该报记者冯海锋的一篇题为《汉字编码要坚持优胜汰劣》的文章,作者认为,应该“严格按照科学标准进行筛选,防止通过商业竞争并借助行政力量强行推行某种编码的弊病”。该文明确指出:“1986年曾举行过全国汉字编码评测活动,结果名列前茅者未能得到推广,而名落孙山,甚而被取消评测资格的编码却大红大紫。……事实上,在没有分清优劣之前,用行政手段向全国推荐某种编码,扼杀更优秀编码出现、推广的机会是极不慎重的。”

这位记者的担心不幸而言中了。作家韶华在《我与电脑三年交》(注③)一文中谈到自己的深切体会:“早几年所推出的编码方法,由于对不能使用中文电脑有了突破,起过重大的历史性、革命性的作用。可是有些方法因为比较难学,需要死记硬背的‘信息量’较大(年轻人尚且需要进学习班,学习一两个月),其难度使好多人望而生畏,已成为阻碍电脑普及、推广的一种障碍。随着新的更加科学的、迅速、易学、难忘的编码方法的不断推出,好的输入方法应该得到推广。”

电脑是人脑的延伸。电脑的使用是为了减轻人的脑力负担,极大的提高工作效率,迎接信息社会的挑战。如果一个编码方案仅为少数专业录入人员所设计,则其价值将大打折扣。如果需要强记与知识背景有较大距离的若干规则,且一段时间不用就会遗忘,则这个方案就很难称为优秀方案。故“难学易忘”应视为大众型汉字编码方案的“癌症”。

信息社会的重要标志是计算机技术的普及。届时,“专业汉字录入员”作为一项职务分工仍然存在;但“汉字录入”作为一项专业技术的时代定将结束。因此,高效率的、“易学难忘”的汉字录入法才是实现计算机大众化的必要条件。1990年11月在北京举行的“海峡两岸中文电脑输入技术表演赛”中,各种文本输入速度冠军得主均为使用音码者。可见,专业汉字录入员非用形码不可的神话早已被实践打破。当然,形码也有其适用范围:古汉语汉字录入和不会汉语拼音的人。至于在小学生中盲目推广仅适用于少数专业人员的某种方案,恐怕很难说是对下一代负责的表现。

转换系统与汉语拼音毫无二致,是优秀的普及型录入法。但因拼式稍长,速度受到影响;同时,同音词(即同音重码)问题暂时未能圆满解决。于是,各类音码便应运而生。音码的产生有其悠久的文化渊源和深厚的群众基础。传统音韵学的“反切”启动了后人关于“双拼”的思考;《汉语拼音方案》制定初期的大讨论提供了许多可供借鉴的精辟见解;拼音知识的普及造就了一代又一代易于接受音码的大众;坚持不懈的中西文化交流使西文标准键盘的模式日渐深入人心……《汉语拼音在科技中的利用》(刘泽先著,1959年),《电报拼音化》(周有光著,1965年),《简易速记/快速索引》陈越著,1966年),《带调双拼盲字方案(草案)》(黄乃  扶良文1977)等有关著作在音码设计的理论和技巧上给人们以极大的启迪.有人指出:任何一种方案除了要尽可能地利用诸如字频统计、词频统计、实验心理学、人机工程学等学科的最高成果外,应还有智能化较高的软件的支持,应能最大限度地亲和于国民知识背景,目前较为统一的看法是‘汉语拼音方案’。”因此,随着全民普通话水平的提高和汉语拼音普及教育的进展,优秀音码将会日益显示出强大的生命力。它将同优秀形码形成汉字处理的并行不悖的双轨。

众所周知,汉字键盘输入已从“字输入”发展到“字为基础,词为主导,智能处理”的所谓第二代汉字输入方法的阶段(“词为基础,语为主导,智能处理”为第三代方法),并有众多优秀音码脱颖而出。它们都展示了各自的巧妙构思。

关于双拼。双拼源于汉语传统音韵学的反切。清末的学者就曾提出过声韵双拼。在汉语拼音方案制订期间,也有过双拼的提案。用拉丁字母的双拼因不符合音素化的原则而被否定。用“民族形式字母”(即汉字部件)的双拼因未脱“方块”的窠臼亦未被认可。一般说来,“双拼”作为汉字改革的模式似难以成功。但双拼的构思却在拼音速记和盲文改革的研究中得到不同程度的实现。双拼方案将26个字母键坐2个使用。击奇数键为声母,击偶数键为韵母。增加了记忆负担,但赢得了速度,得大于失。事实证明,在中文键盘录入中双拼原则得到了人们的普遍赞同。

关于指频统计。指频指八个手指的触键动作频率,是衡量字母(主要韵母)安排得当与否的指标之一。人机工程学要求,设备(硬件)和操作方式(软件)的有机结合,应尽可能符合人体生理特征的需求。声母、单韵母的安排与键面完全一致(双字母声母除外),复合韵母设置是否得当,除考虑声韵结合规律(相拼或相斥)之外,还要顾及八个手指的击键负担的多寡。一般说来。食指的负担宜重些,三、四指依次递减,小指最轻。形码尚未见指频统计分析。音码指频统计较为方便。下面是两个声韵双拼方案的指频统计表。可以看出,结果是比较令人满意的。

表格.png表格.png

关于语音容错。精确相对于模糊。人们并不是时时事事都需要精确。为照顾方音未改者,有的软件设置了“语音容错”功能,让使用者尽快进入操作境界。当然,这仅是一种暂时的让步和迁就。有人蜘一切科技文化措施都应为汉语的标准化服务,来普及和巩固推广普通话取得的成果。显而易见,标准声韵录入能同时发挥辅助语言教学的作用。这当然也是值得肯定的。

关于单字选择。“在非议论文中,例如文学作品,单音节词出现频率较大。因此,如何分化单音节词的问题,是一个技术难点。”(注⑤)解决的尝试有多种:
1.借助词频资料。先出现不分声调的第一个高频单音词;然后还可标注声调,分别再出现一个高频单音词。这就方便了相当比例的单音节词的录入。
2.以词定字反联想。键入一个常用双音词的编码后,先出现该词的第一个字,不必敲空格键,则第二个字不会顶出。如“reai(热爱)”只取“热”;“piqi(脾气)”只取“脾”。
3.以形定字。增加字形信息,以减少同音重码。如“bak 吧”和“bac 芭”,“字”和“zim 梓”,“qiw 琪”和“qis 绮”。(其中k为口,c为草头,w为王旁,q为其,s为绞丝旁,皆作“定字字母”。

关于智能处理。语词之间的搭配有一定的随意性。但若从语法、逻辑等多角度考察,又有一定的规律性。例如,“国家”之后用“权力”,不用“权利”;“民主”之后则反之。有的软件具有“瞻前”功能,一旦形成一次搭配关系以后,再次使用这个短语时,即可根据前面的语词属性自动的在其后的若干同音词扎选取相应的一个。这被称为“自动记忆”。“顾后”功能,即一旦后面出现某词  后,它前面的某词即可改换为相应的同音词。如若后面出现“勇敢”,则前面的jizhi一定是(或自动改换为)“机智”,而不可能是“机制”。提高智能水平是汉字软件设计的一个难度最大但十分迫切的课题。当然,这已超出“汉字编码研究”的范畴了。

在此顺便提出一个新思路.在引进国外优秀软件的同时,往往进行一次被称为“汉化”的再加工。所谓“汉化”,即“汉字化”。如若改换一种思路:“汉语拼音化”,又当如何?例,不用FORMAT,而用GESHIHUA(或GESHI、GSH);不用DIR,而用LIEMULU(或MULU、LML)等;恐怕不是不可行的。

“汉语拼音化”应参照《汉语拼音正词法》,亦可作必要的变通。减少内存开销,加快运行速度,有利于效率和效益的提高。将“汉字化”变为“汉语拼音化”,功德无量。

但愿有“第一个吃螃蟹的人”的勇士出现。

音码的设计者和拥护者是一支推进信息产业健康发展的有生力量。他们各自为战,殚精竭虑,企盼自己的方案服务于更多的用户。这种披荆斩棘,光前裕后的勇猛精神令人感奋。然而,孤军奋战分散了力量,少数人的才智总有其自身的局限。任何一个方案也不可能在所有单项指标上都超过其它方案。故至今还没有一个优秀音码独占鳌头,成为众望所归。这就引起了人们的深沉思考:如果有一个几乎能涵盖所有音码优点的综合性方案出现,将会为开创我国信息产业的新局面作出何等重大的贡献。

值得欣慰的是,“八五”期间,国家语委拟会同有关部门成立语言文字信息处理协调小组,负责语言文字信息处理的立项和评审,组织和协调各方面的力量联合攻关。国家采取有力措施,加强宏观管理和统筹,建立由国家行政职能部门组成的高层次领导和协调机构,增加信息研究、开发、应用的投入。(注⑥)我们相信,这些措施的落实,定会为蓬勃发展的信息产业带来显著的社会效益和经济效益。这是现代化建设飞速发展之所需,也是计算机大众化的前奏。


注释:
①参见唐继贤《我用汉语拼音拍发电讯稿》、黄志南《一条走得通的道路》,载《汉语拼音论文集》。
②马希文《从计算机系统看〈汉语拼音方案〉》,载《语文建设》1988年第一期。
③《电脑报》1992年第一期。
④段宁华,载1990年5月8日《计算机世界报》23版。
⑤方世增《拼音变换法中文语词处理系统介绍》,载《语文建设》1991年第一期。
⑥参见《语文建设》1992年第一期。


原载《电脑》杂志1992年第2期

_
张孝存更多作品
世说文丛总索引

未经允许不得转载:

转载或复制请以 超链接形式 并注明出处 世说文丛
原文地址: 《张孝存丨汉字编码纵横谈》 发布于2022-9-25

切换注册

登录

您也可以使用第三方帐号快捷登录

切换登录

注册

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

sitemap