如醉如痴一码狂
含辛并非为稻粱
静心养性是良策
无怨无悔望长江
这是今年春节在北京写给一位编码朋友的一首诗。
尽管编码事业已不再辉煌,同前些年一样,仍然有不少热心者在为汉字编码焚膏继晷、绞尽脑汁,精神可嘉、可叹。其实许多人正在做无用功。大概历史上英雄人物的四周总是需要一些准英雄人物来作陪衬担当配角吧。
话说这几年,笔输入和语音输入法异军突起,大大热闹了一番。
有人说,这是“码”“笔”“口”的三国演义。让我们先看看后两种方法的利弊,供各位参考。
1997年开始“笔输入”大战,这时笔输入系统已经解决了“笔顺”和“连笔”的问题,逐渐由笨拙转为实用。蒙恬、慧笔、汉王等等纷纷亮相,“返璞归真”口号无处不在。而1998汉王笔携“IBM语音识别系统”再给手写系统增辉,率先推出“听、写识别系统”,将中文输入带入了一个新的时代,“君子动口不动手”更是让人们惊叹不已,而后众多听写系统将市场炒作得火爆异常,“清华听写、文通听写……”,汉字编码和键盘输入似乎已经是落后的书写方式了。然而,新的先进的书写方式并非万能,并非适合在所有场合应用,往往要以较高的硬件配置为前提,可称为“硬件瓶颈”。记得1987年在“中华杯中文电脑(国际)汉字输入公开赛”时,来自加拿大的某参赛队,就采用全拼音语句输入一次转换的输入法,其效果虽然没有现在微软、黑马语句输入法好,但是也能够与一般的语句输入法的水平相当。但是这么先进的成果为什么没有应用呢?原因是当时这种输入法只有在小型机上才能使用,虽然那时的小型机也就相当于386的速度,但是谁会用小型机来当打字机用呢。像这样就算技术水平再高,也是不能够推广的。当然,随着手写和语音输入技术的不断提高,汉字编码输入法所占有的份额的确在迅速下降,毕竟职业录入和需要大篇幅输入的人是少数,计算机越是普及这种情况就越是明显,大多数人也就只需要用到很少的汉字,利用手写笔和语音很是容易的,再也不会有大批的人为了输入中文而参加录入培训班。
“手写笔”和“语音识别”按最理想的发展,可能会成为今后汉字输入的主要手段,会占有最多的用户群,但这仅仅限于少量的汉字输入的情况下使用。同一个人可以掌握三种方法,分别情况采用何种方法。若是用来录入或者写作还是键盘编码输入更好一些。尝试过手写笔的人都知道,如果用它写一篇1000字以上的文章后,一定会有手都快不听使唤了的感觉,用过语音输入的人更是不想再多说一个字,但是用键盘编码输入就会比较轻松了。当然有个前提,就是对编码输入法比较熟练了以后。我记得有作家和记者曾推动过“作家换笔”甚至“全民换笔”运动,希望人们能够摆脱旧的书写方式,减轻负担。大家都知道,用笔写字是横向运动,而键盘输入是纵向运动,用笔横向写字,平均每字要有5、6个用力动作(在连笔书写时),如果是工整书写则会更多要更多用力动作,比起汉字编码输入时平均一字2、3键来要慢一倍。另外笔输入是单手,并且五个手指和手腕都要用力,而键盘输入是双手,每次仅一个手指轻微动作即可完成,所以笔输入当然会比键盘输入累很多。原本希望摆脱手写的劳作,然而软件的发展却帮助人们又返回以前令人烦恼的境界,这是不是人们的一种“自我异化”呢?
语音输入的麻烦更多了,首先计算机的档次要很高,周围环境也要封闭和安静,除了希望提高语音识别效果外,如果您在写家信、一篇技术文章、一个协议等等,总不希望让被别人听到吧。而如果是在一个大办公室里面,用“语音”输入一篇文章您可就真的要“献丑”了。另外“语音识别”的缺陷还有不能辨别“张”和“章”这样的同音字,这对于输入人名时就困难了。还有若输入一段文字的中间每次仅仅就错几个字,您也要将整句话翻来覆去的反复朗读,因为这“语音识别”只能对连续语音进行识别和处理,对于单字修改是无能为力的。这就使得您在大篇文章豁然出现之后,还要再用笔或者悄悄地打开某输入法为其“擦屁股”,也许这“擦屁股”所费的劲比起用键盘重新录入一遍还要多。但有人感到自己说起来要比用手写更能让思路汩汩滔滔,当然也不妨试一试。
以拼音或双拼为基础的“语句式”输入法是造成编码输入法受到冷落的另一原因,语句输入法相对于普通汉字编码输入法在学习和使用时确实简单了许多,现在这种语句输入法已经可以在WIN95或WINNT上应用了。但是“语句输入”在使用中情况并不理想,以至于“雷声大,雨点小”。实际上虽然我们的文章是由语句构成的,但是我们在写作时却很少能够一次成形,因为文字需要严密,不能像口语那样随意,一篇漂亮的文章的写法是有很多讲究,通常要针对其中的字和词仔细推敲,反复修改。能像一流作家和记者那样文章一次成形,不需要修改的人是极少数的。还有我们一般人的指法并不好,敲错键和读错音的情况经常发生,一次输入完成的一个语句其中必然会有错误,对于中间的击键错误和拼音错误,语句输入法几乎不能排除,出现啼笑皆非的句子在所难免。一旦一次输入不能正确,回复的修改就又让思维绕回来了,那么语句输入法所承诺的一次一句就成为泡影。语句输入在修改文章时,虽然不会像连续语音识别那样对于单个汉字和词组束手无策,但是也被迫沦落到普通拼音多重码翻页选择的境地。
当然如果用语句输入法作为上网聊天,日常书信往来的方式这样对文章质量要求不高的情况下,的确具比普通编码输入法有更好的易用性和更高的输入速度,但是其他情况下就有点不如人意了。
汉字编码导致中文电脑时代的到来,带来中文信息事业这十几年蓬蓬勃勃的景象,毕竟586是前两年才有的,毕竟WIN95是这几年才开发出来的,而语句输入法、语音识别、手写识别只有在这个环境下才能很好地实现。而那些486以下的计算机,那些大量的终端,那些现在仍在生产和即将生产的终端设备中恐怕还需要用汉字编码和汉字输入法。此外,职业录入、编辑、出版、写作等工作汉字编码还是少不了的。应该看到汉字编码输入法的长处,在保持汉字编码在专业录入、长篇写作中高准确率和高速度方面的优势之外,在手写和语音输入方式所不及的地方,汉字编码输入法和转换系统仍然有长久的
生命力,这就是我们今天讨论问题的大前提。
二、标准
评价汉字输入方案优劣的标准是什么?
有专家提出了衡量输入方案优劣的六项性能指标:规范性、易学性、快速性、完备性、国际性和不可置换性。大家都同意,对输入法的优选或研制,离不开社会需求分析,离不开具体的应用领域和使用对象。我们认为,就中小学生和社会一般用户来说,对这六性的要求首先是规范性和易学性。
关于规范性。汉语、汉字的规范标准的研究早在50年代就引起学术界的重视,也取得不少研究成果。然而,由于种种原因,至今仍有不少问题在专家中间就有不同见解,而国家在语言文字规范方面的立法工作同社会发展进步速度相比又明显处于滞后状态。这就给编码研究带来严重的困难。“规范”指“约定俗成或明文规定的标准”(《现代汉语词典》),规范化是大家都想达到的境界。“约定俗成”即不是少数人、个别学派说了算,“明文规定”即政府有关部门以立法或准立法的形式向全社会昭示。缺少这两个条件,妄称“符合规范”只能是王婆卖瓜、孤芳自赏。要实现编码规范化,首先要有学术界的广泛赞同(代表“约定俗成”),其次要有职能部门的认可并颁布(代表“明文公布”)。《语文建设》1996年第三期上刊登的一篇文章说,“编码必须符合语言文字规律,与汉语识字教育一致。在推广汉字编码时,‘规范性’应该具有‘一票否决权’,即不符合文字规律的编码不得推广。违反文字规律的所谓‘汉字编码’与汉字长期共存,必将贻害子孙后代,给语文工作造成不可估量的损失。”汉字录入方案(这里主要指汉字编码方案)是一种文化技术,它具有双重属性即人文性和工具性。语文界人士特别重视人文性,强调规范化;技术界人士特别重视工具性,强调高效率。显然,规范化和高效率二者之间存在着明显的冲突。所谓汉字输入的“瓶颈”就在于此。现在,国家有关部门已经高度重视这个问题,在国家语委设置了“中文信息司”,负责协调有关部门的关系,行使必要的行政权力,以使中文录入技术实现规范和高效的和谐统一。1998年5月由国家语委和国家新闻出版署联合公布了《信息处理用GB13000.1字符集汉字部件规范》。
《规范》中明确了汉字拆分原则和基础部件,给汉字编码提供了依据。
《规范》中的汉字“笔画标准”可以减少过去对倒插笔的兼容编码,“拆分规则”和“基础部件”解决了不同习惯用户对汉字拆分的多种理解问题。另外,《规范》中纠正了过去由于某些编码片面宣传和推广而导致的错误概念和错误观念。表形码、郑码、五笔字型、认知码、规范码、自然码等均按照《规范》进行了改进,改进以后的编码普遍在重码率方面要比过去的高,但这并不意味着编码退步了,恰恰相反以略增加重码率的代价换来汉字编码的规范和简化,正迎合了目前普遍用户对易学方面的要求,重码率的多少早已不是汉字编码衡量好坏的标准了。
关于易学性。进入信息社会之后,计算机文字输入将成为大众化的文化技术。因此,易学性指标被放在非常重要的位置。音码方案对于熟悉汉语拼音的用户来说,易学性是较好的。特别是“拼音—汉字自动转换系统”(有人认为这属于非编码系列,在此暂不讨论),只要会汉语拼音就会汉字输入,根本无需学习编码。这是为什么呢?因为汉语拼音方案采用的恰恰是拉丁字母,同拉丁字母键盘的对应具有不可置换性。而形码(包括纯形码、形音码)至今在易学性方面(尤其是同音码比较)并没有根本性的突破。这是不得不正视的事实。
越是成功的发明,就越是应该简单、易学、易用。如果学打字比学一门专业课程所需的时间还要多,则掌握的人只能是凤毛麟角,也就是没有推广和普及的价值。
关于快速性。对于绝大多数计算机用户来说,快速性不是一个重要的指标。因为“想打”操作首先受思维过程所需时间的制约,超过了人的思维极限的“很高的速度”对于绝大多数人来说是毫无意义的。
具体地说,能与思维同步,比手写稍快的速度对于“想打”已经足够了。作家白桦说,我的打字速度只要跟得上表达我的第一灵感就行。一位著名的编码设计者说,他的编码是“永久牌”“凤凰牌”自行车,不是赛车,因此他对仅涉及录入速度的竞技比赛毫无兴趣。耐人寻味的是,在历次公开比赛中,凡是现代连续文本录入(全为“看打”),桂冠总是被优秀音码夺得。当然,必须看到,决定速度的因素是多方面的,应力戒片面性,不能将比赛速度作为衡量编码质量的最主要的指标。下面一段话说出了一个朴素的真理:“编码测试不是体育运动比赛,不能简单的比快慢。某个尖子经过长期训练的打字速度,不能证明这种编码的科学权威性,语言编码是要全民使用的,你不可能要求所有人都达到个别高手、金牌获得者的标准。用户要求是好学易用,职能部门要考虑的是它的普及性。”还有人强调,“离散文本的冠军最高成绩是形码(郑码),也就是在大家都不用词库,拼基本功时,形码占先”。其实,思想(文章)本来是由连续语料构成的,离散文本不是现代人正常思维的产物。单字录入(有点像体育训练中的分解动作)即使形码速度占先,实用价值也不大,不足为据。汉字中同音字多是事实。但语言中的意义单位是词而不是字,由同音词导致的重码率已比由同音字导致的重码率大为降低。加以采取高频先见、用过提前、智能相关处理等技术,重码问题并不像想象中那么严重。
如若不信,可以看看在比赛中夺魁的优秀音码是如何克服这个难点的。
国家有关部门规定,初级计算机文字信息处理员每分钟输入汉字不少于50字,中级每分钟不少于80字。而一般人边思考边写文章,每分钟一般不超过30字。
当计算机从办公应用走向家庭应用,计算机再也不是什么珍宝,“机时”这种词已经不再是价值的体现。每分钟输入200个字的需要几乎没有了,现在人们只要能够达到平均每分钟输入30字的速度就已经心满意足,每分钟输入50字以上应该算高手了,这种转变正在逐步由大中城市波及中小城市地区。事实上,1995年以后单位或公司在招聘员工时已经不将是否会五笔字型,以及每分钟输入汉字的数量作为是否会用计算机的衡量标准。
关于完备性。完备性指对不同的汉字集合的适应能力,被认为是衡量编码质量的指标之一。“唯有形码才适合于全汉字集的编码”,我们可以在赞同这个断定的前提下讨论问题。一般说来,音码在完备性方面不如形码。从历史演变来看,汉语有古代汉语、近代汉语、现代汉语之分,汉字有古代汉字、现代汉字之别。若把对小汉字集(6千多字)、大汉字集(2万多字)、全汉字集(6万多字)的适应程度分别称为三级完备性、二级完备性、一级完备性,则一级完备性对三古(古代汉语、古代文字、古籍整理)研究是不可或缺的。但对绝大多数现代中国人来说,他们进行信息处理的主要工具是现代汉语和现代汉字。他们无需耗费心血,对几万字进行拆分,并能通过编码对全汉字集玩于股掌之间。因为那种可怕的投入几乎是在做无用功!“两弊相权取其轻,两利相权取其重”。试问,普天下有几个人需要进行佛经文献的录入?况且现代汉字的定量指标从根本上说是对高完备性的否定。要明确是为表达思想而输入,不是为输入而输入。转换系统和优秀音码在处理现代人现代思想方面已经取得了可喜的成功,不必用“全汉字集”去“棒喝”它。有人认为,为了利于社会广泛使用,与社会的要求接轨,中小学使用的汉字编码应能对大多数汉字(如ISO-IEC大字符集20902个汉字)进行编码。这恐怕同样是多此一举。
《毛泽东选集》1~4卷普及本用字总数共660,273字,使用不同汉字3002字;老舍的《骆驼祥子》使用总字数共107,360字,使用不同汉字2413字。可见,现代白话文用字范围是不大的。若遇到小汉字集中没有的陌生伙伴(这对许多人来说可能“百年不遇”的)怎么办?别忘了,电脑不是几乎无所不能吗?嵌挂上“专家系统”,借助于“知识库”,不就如探囊取物了吗?让音码去解决全汉字集不但没有可能,也没有必要。周有光先生在谈到不可“本末倒置”时说,“白话是本,文言是末。连续文本是本,离散文本是末。通名是本,专名是末。常用是本,不常用是末。”(《语文与信息》1995年第一期)。这样看来,纯形码或形音码即这样看来,纯形码或形音码即使解决了大汉字集的问题,对绝大多数用户也是没有多少实际价值的。
国际性即指只用26个拉丁字母,不用数字符,更不用标点符号作为编码的符号。即使声调符号也宜用拉丁字母。这样才能在互联网上畅通无阻。
不可置换性的意思是说,编码键位映射是唯一的,不是两可的,更不能是任意的。
有人认为,中小学使用的汉字编码还应具有帮助识字教学、查字检索的功能,需要将“识字”和“打字”相结合。汉语(汉字)录入为了什么?从表面看,仅仅是为了文字处理;从深层看,是为了方便快捷地进入全国(乃至全世界)联网的信息高速公路。至于其他辅助功能可放在次要的位置上考虑,不宜作为衡量某一方案优劣的必备标准。比如,需要计算机帮助汉字教学,完全可以设计出优秀的识字教学辅助软件。不过,我们应当有这样一个共识:中文电脑是语文课的延伸。
不同的使用对象对各项指标的要求不尽相同。可以用下面的表格来说明:
三、推荐
近年来,国家有关部门在推荐汉字输入方案方面有什么指导性的措施吗?
为了加速国内汉字信息技术向标准化、规范化方向发展,维护用户利益,全国信息技术标准化技术委员会根据电子工业部和国家技术监督局有关指示,开展了面向社会的汉字输入法优选推荐工作。推荐工作本着公平、公正的原则,在市场调查的基础上,依靠专家,在选送的输入法中评出较好的输入法,供国内、外厂商和用户选用。
1995年9月8日首批推荐的汉字输入法如下(按汉语拼音字母次序排列):
形码:表形码、字根编码输入法(郑码)
音码:GWABC、天利码、新拼音、自然码
该委员会在推荐的同时郑重指出,“本次推荐是在实际应用条件下按一定规范和程序完成的。这些规范还有待进一步完善。因此,本文件不能作为企业产品广泛宣传和质量保证的依据。”同时又指出,本次推荐仅是本委员会首批推荐结果,今后将继续开展此项工作。(详见《中文信息》1995年第6期)
在回答《文汇报》记者关于入选编码的条件是什么的问题时,全国信息技术标准化委员会的王利剑先生说:“全国信息技术标准化委员会的优选条件是:编码方法符合现代汉语使用规范;易学、难忘、适当考虑输入速度;形码应能输入国家标准GB13000(国际标准ISO/IEC10646)规定的20902个中、日、韩汉字。”(见《文汇报》1996年3月5日第11版)
由于形码的设计当初缺乏法定的标准依据,所以难免有一些变通和不规范之处。
国家语言文字工作委员会1997年12月发布了、1998年5月实施的《信息处理用GB13000.1字符集汉字部件规范》。《规范》中明确了汉字拆分原则和基础部件,给汉字编码提供了依据。这份国家标准说,“本规范对中文信息处理,特别是对汉字键盘输入方法,具有规范作用。”也就是说,具有一票否决权。表形码和郑码都依此进行了相应的改动,规范性指标有了一定提高。
(一)表形码
表形码把汉字的构成部件和西文字母的形状尽量结合起来,将汉字笔画字母化。实际上这是一个“拼形字母”系统,其设计构思的基本依据是:形似联想。该方案将汉字部件分为370多个,安排在26个拉丁字母键位上,列出了一个表格。汉字对应编码的最简单的例子是:XO→古,OOO→品,iX→计,EPPE→印刷。1996年3月14日于北京故宫发布的Windows95中文版预装了BXMNT,意思是新技术(MEWTECHNOLOGY)。因为国际习惯是通用小键盘上用26个字母作文字信息输入,数字键输入数字,符号键输入符号。这样安排既与国际文字处理习惯接轨,也有利于提高输入速度。所以,NT版将31键表形码改为26键表形码。(早期版本还使用了1~5五个数字键,用了31个字符)。
“形似联想”是表形码的设计基础。然而形似联系有一定的局限性。关键在于“形似联想”是一个比较模糊的概念。有些所谓联想使人丈二和尚摸不着头脑。更有一种模仿表形码的编码方案,让用户“凭自己的想象拆字编码”。
下面是表形码的实例:
A——女、及、又、瓦B——日、目、耳
N——月、舟S——井、西、我、马
U——心、禾、鱼等等。
通过下面一些字的编码进一步理解表形码:
燕:HOXD拯:FWXM敲:IONA原:JJBG
(二)郑码
“字根编码输入法”即郑码。它是一种典型的形码输入法。被称为理论体系完善,重码率低,适合配置大容量字库及东道主大字符集编码,在汉字检索方面居国内外领先水平。重码率小于3%,含有5200多条词组,录入速度可达每分钟150字以上。它有基本字根170个,按横、竖、撇、点、折的顺序安排在26个键位上。将汉字分解后,依字根对应的字母键入,即可得到相应的汉字。如:枉→木、王=FC,宣→宀、二、曰=WBK,例→亻、一、夕=NAR,轻工业→车、工、业=HBK。郑码可以处理大汉字集(20902个汉字)和全汉字集(6万余个汉字),对从事古代典籍研究的专家学者和专业排版人员特别适用。不过应当看到,由于它是纯形码,难以摆脱“难学易忘”的弊端,而难学易忘是普及性方案的癌症。究其原因是由于,字根的映射安排具有可置换性。“横起笔类”用A--H,“竖起笔类”用I--L,“撇起笔类”用M--R,“捺起笔类”用S--W,“折起笔类”用X--Z。台湾用的仓颉码是这样安排的:“日月金木水火土”分别用ABCDEFG来作为编码。具有明显的可置换性。这就需要使用者死记硬背设计者的主观规定。因此,我们认为“郑码”不宜在中小学推广。鉴定书上说的“易学”曲高和寡,“建议在中小学试验”是一厢情愿。
(三)智能ABC
GWABC即长城ABC(智能ABC、天汇ABC),其前身是北京大学电子仪器厂、国家语委语言文字应用研究所联合设计的CW中文语词处理系统。它同天利码都不是严格意义上的音码。二者都属于“拼音—汉字转换系统”,是非编码的输入法。它们完成的是汉语的拼音书写形式到汉语的汉字书写形式的转换,而不是汉字编码到汉字的转换。它们的最大特点是:①会拼音就能很好地掌握;②无编码,没有额外的脑力负担。由于采取了高频先见、用过提前、智能处理等先进技术,并且词库基本上收录了《现代汉语词典》的五六万语词,转换率可达97%。不是100%,这就是缺点。单字可用以词定字法,如键入JIANPAN后,再按[键,就要“键”字;如再按]键,就要“盘”字。同音词也可用笔形描述来区分,如QUANLI5=Q7L5=权力,QUANLI3=Q7L3=权利。ABC汉字输入技术多年来一直是长城微机的标准输入法。目前,ABC已成为中文WINDOWS3.2、IBMOS/2WarpP3.0中文版和中文WINDOWS95等系统的标准输入系统。天汇ABC是ABC汉字输入系统的通用DOS版。
它提供了多种输入方法,输入方便,使用灵活。
1.全拼输入。词与词之间要用空格或标点隔开。要按拼音方案的要求,必要时用隔音符号。
2.简拼输入。即只用声母,略去韵母。如,JSJ可出现“计算机”,CHCH、CC、CHC、CCH、可出现“长城”。用简拼要特别注意用隔音符号,如Z'H出现“中华”。
3.混拼输入。即简拼、全拼混用。如,JSHAJ出现“金沙江”。
4.笔形输入。适用于不认识的字。如“铿”为311225,前三个数码为上部分编码,后三个数码为下部分编码。
5.音形输入。即“拼音+笔形描述。”ABC系统将横、竖、撇、点、折、弯、叉、方这八种笔形分别定义为1、2、3、4、5、6、7、8,在拼音之后加笔形描述,如d5=对、d53=刀、mei7=梅。
6.双打输入。
它的主要优点是:
①输入界面灵活友好
既可按字、词输入拼音(全拼、简拼、混拼等形式),也可以输入笔形代码,或者二者的各种组合,而不需要输入方切换。这样,一个单字可有数种输入形式,而多字词其输入组合方式就更多了。如“长城”一词的输入:
全拼changcheng
简拼chchcchchc
混拼changchchcheng
简拼+笔形ch3ch7
所以,对于不同的使用者,会拼音或不大会拼音的人,一般使用者或专业录入人员,都能适应。熟练的操作人员可以综合使用这些手段。
②动态词汇库系统使用方便:
智能ABC建立在一个约六万词条的基本词库和具有自动筛选能力的动态词库的基础上,动态词库中自动记忆的词汇容量可达一万七千词条,强制记忆的词汇可达一千条。用户词汇管理程序使用户可以方便地查阅基本词库,并对自己的词库进行编辑、摘要、增删等操作。
③智能特色模仿人脑功能:
语流信息分析、自动分词构词、广义同音同形词的识别以及多层次的记忆功能(瞬时记忆、短期记忆、长期记忆、强制记忆、词频调整记忆等)形成系统的智能特色,这就使得人在输入汉字的过程中感觉舒适,因为机器在不断适应人的需求。智能ABC包含了汉字输入的许多条道路:有大道,也有捷径。初学时如走大道,简单容易;用得久了,自然会找到自己的捷径,高效快速。
④标准规范,寓学习于使用中:
本系统坚持使用和学习的一致性,在正词、正音、书写笔顺等方面,努力遵循国家语言文字规范,并且和学校语文教学相协调。如“查字”功能,完全模拟了查字典的过程。它是推动普通话和汉语拼音教学的动力,是汉字和汉语之间的桥梁。所以,长期使用智能ABC系统,定能提高基本文化素养。所以,不但值得向中小学生推荐,也完全可以负责地向初通普通话的成年人推荐。
(四)新拼音
新拼音的主要特点是除了自带一种双拼方案之外,还可以由用户自己定义一种熟悉的双拼键盘,对使用者具有较强的适应性。
(五)自然码
自然码是一种以音为主、兼顾字形的音形码,是目前音形结合、以音为主的输入法中用户量最大的一种。它用“以形定字”的方法分化同音字,用智能相关处理的方法分化同音词。它的的鲜明特色和突出优点是:音形并用,以音为主;音形共存,以形辅音;即“字词输入以词组输入为主、单字输入以拼音为主辅以形义代码”。最大限度的提取汉字“音、形、义”三大要素。它的5.61及以后的版本新增了五万余条国标词组及一万多条常用词组,兼容SPDOS的双拼定义,支持目前的各种汉字系统。加以在动态造词、难字查询等方面别具一格,获得广大非专业录入员的欢迎。自然码就没有什么缺点吗?答曰:有缺点。主要表现在第三位编码,即形码部分,曾经用了标点符号,加上变通安排,共有40个左右部件被无理硬性规定了键位。由于大势所趋,从6.0B版开始,取消了26个字母之外的字符的编码资格,提高了规范化指标(注:仍有F表示提手,O表示日月的欠规范的安排。设计人周志农目前并不把进入中小学作为自己的努力目标,只适应一般人的需要,这是明智之举)。同时,增加了重码。其实,这也正是一切形码难以解决的难题。此外,由于字词混编,重码导致单字选择有些麻烦。当然,如果多多自定义词会在一定程度上减轻这个缺点带来的负面影响。
1997年5月,“自然码汉字输入系统”6.0版,多环境(DOS/WIN/WIN95共享)、多词库(成语、地名、军事、医学、法律、出版)、双内码(GB/BIG5)、进一步增强智能化处理。1997年10月,“自然码汉字输入系统”6.0A版,增加多内码、多方案及更多的辅助功能。1998年5月,“自然码汉字输入系统”6.0B版,利用多词库支持GBK20902汉字,扩充汉字为可选字库方式,增加切音汉字查询,增加简繁双集字词输入功能。1999年初推出的“自然码汉字输入系统”6.0C版,增加“词语”功能,既有字词输入的优点,又可以像语句输入法一样,同时又消除了语句输入无法夹杂简码词的问题。
(六)微软拼音
在海外兵团的参与下,微软拼音终于伴随WIN95登场。微软拼音输入法是一种汉语拼音语句输入法,用户可以连续输入汉语语句的拼音,系统会自动选出拼音所对应的最可能的汉字,免去了用户逐字逐词进行同音选择的麻烦。
微软输入法设置了许多特性,例如自学习功能(智能相关处理)、用户自造词功能(即在线用户自造词典,离线用户自造词典属于词库维护),经过很短的时间与用户的交互就能适应用户的专业术语和句法习惯。这样,用户就能越来越容易地一次输入语句成功,从而大大提高输入效率。同时可以用1234表示声调,以分化同音字。微软拼音也分全拼和双拼两部分,可供用户选择使用。它的双拼基本采用了自然码的键位安排。使用技巧会在输入过程中逐渐摸索出来。知识源于学习积累,智慧则是知识的运用,但如果不记忆最起码的东西,我们就既没有知识也没有智慧。一个好的编码方案,并不是不需要学习和记忆,而是把记忆负担和学习难度减少到最低限度。
(七)AUTOWAY自通中文输入平台
这是一份具有独特构思、值得介绍的输入方法
1995年9月19日,中国语文现代化学会在北京召开了专家评审会,对AUTOWAY自通中文序列输入平台进行了评审。专家们一致认为,该方案用汉语拼音的全拼和双拼输入方式进行序列输入时,能自动切分音节、自动切分语词,并实现自动序列择码,其自动分词、自动译码的准确度达到96%左右。该平台具有自适应用户的专业特点的智能,并且具有自举建立和自适应维护于此一库的功能,使用方便,易学性强。设计符合语言文字规范,对我国的社会信息化建设和电脑信息产业的发展具有重大意义,适合在社会各领域推广使用。该平台采用了一条趋同于自然语言文字规范的、自动化和智能化的计算机中文输入技术路线,在理论基础、技术设计和综合性能指标方面具有国际领先的水平。
AUTOWAY是一种没有编码的汉字输入新方案。使用这种输入法,用户只要会汉语拼音,用全拼或双拼法按音节加标点连续键入,既不要人工分词分句,也不用打空格上屏,系统就会根据上下音节所提供的汉语内部规律,自动划分词语并转换为汉字。由于软件仅提供最基础的通用词语,所以刚开始使用,转换的错误率比较高,个别重码字词,还需要从提示行中挑选,不过AUTOWAY系统具有强大的智能功能,凡是使用过一两次的词语,系统就能记住,因此词语量是越打越多,错误率则越来越少。1995年第12期《电脑爱好者》有专文介绍。
部分拼音输入法功能比较表
四、分析
(一)《汉语拼音方案》是中西键盘文化的最佳接口
现在,“汉字不能进入计算机”的偏颇预言确实被事实所否定。
越来越多的计算机用户正在摸索中前行,并且有了切身的体会。我们认为,与其欢呼汉字伟大、终于进入了计算机,不如赞叹计算机几乎是无所不能。尽管如此,计算机处理汉字与处理西文的效率仍然有一定差距。差距集中表现在汉字需要编码。
问题的症结在于“汉字不能像拼音文字那样便捷地进入计算机”。汉字的特点是笔画多、数量大、形体复杂。任何一个纯形码的设计者都不可避免地要为把几百个部件安排到二三十个键位上而绞尽脑汁。这些纯形码方案都毫无例外地将许多与国民知识背景有较大距离的若干硬性规定强加给使用者,存在“难学易忘”的先天缺陷。对这种致命弱点的出现丝毫不应当责怪方案的设计者。这是汉字的天性使然。但是我们不得不深思这样一个问题:追求用纯形码解决中文信息处理的“瓶颈”,是不是一开始就进入了一个难以自拔的误区?
西方键盘文化传到东方,不是可怕的“文化侵略”,而是人类文明进步大潮之一斑。西方科技的高度发达、英语实际上向“世界语”的嬗变,是西方键盘文化东渐的最大原动力。中国不是要对外开放、引进先进的科技文化进而向科技发达国家的行列冲刺吗?既然如此,寻找中西键盘文化的最佳接口就不是没有意义的思考了。
键盘文化的创建和沟通,会在工具上、观念上极大地推动高科技时代的信息交流。构造将26个键位重新命名的纯形码难免出现“削足适履”或“削履适足”的尴尬局面。所以中西键盘文化的最佳接口不是纯形码方案。几年前的统计表明,“我国70%以上的科研人员使用的是拼音输入法。他们不用目前占我国输入技术开发的70%的形码”(转引自《中文信息》1992年第1期54页)。通行的各种教材特别是中小学教材毫无例外地离不开全拼法。这就是难以辩驳的明证。试想,26个拉丁字母键位变成被众多笔画、部件瓜分的天下,用狭隘的“全部汉化”取代“国际化”,将会对中西文化科技的交流及融合带来极大的不便。
《汉语拼音方案》采用国际通用的拉丁字母,便于直接运用西文键盘。录入现代人的活的思想,完全可以不通过汉语的书面符号——汉字,只要直接键入普通话的载体汉语拼音(拉丁)字母,就可以由具有智能功能的软件转换为相应的汉字。其简易便捷不言而喻。
其实,汉语信息的输入也完全可以甩开“编码”而如同西文般直接录入。这种快捷有效的方法便是应用汉语拼音。《汉语拼音方案》是目前最优秀的拼写现代汉语普通话的拉丁化方案。它是百年来文字改革运动的结晶,并由全国人民代表大会通过。汉语拼音尽管不是文
字,但它可以和国际上拉丁字母文字的信息处理系统、情报检索网络挂得上钩。这个方案作为中国人名、地名拼写标准也已经联合国批准,获得世界公认。它是实行宪法明文规定的“国家推行全国通用的普通话”方针的最有力的工具。遵照全国统一的教学大纲的要求,它正在成为国人人人具备的文化基础知识,必将深深扎根于最广泛的国民知识背景之中。目前,在新华社95个驻外分社中,至少有三分之一的分社用汉语拼音发稿。这是《汉语拼音方案》作为辅助文字使用的成功尝试。早就有专家推断,基于《汉语拼音方案》的汉字录入技术必将成为一支突起的异军,理直气壮的登上中文信息处理的殿堂。而采用汉语拼音连续输入、由计算机自动转换为汉字的中文语词系统就是由西文键盘直接录入汉字的非编码输入系统。这种处理系统可以安装几万条现代汉语词汇,变换正确率高。同时,它具有较高的智能水平,不仅为用户提供了构造新词的方法,而且可以模拟人脑的记忆和遗忘功能,其易学性首屈一指:汉语拼音+指法训练。日本的微机经历了大键盘、编码阶段,而变换法的完善才使计算机的大众化获得成功。“他山之石,可以攻玉”。有专家预言:“在日本,‘假名汉字转换方式’占了绝对优势。我国计算机汉字系统输入方式的试验也会以‘拼音转换方式’的胜利而告终。”对这种颇有见地的预言,不可等闲视之。
《汉语拼音方案》制定初期的大讨论提供了许多可供借鉴的精辟见解;拼音知识的普及造就了一代又一代易于接受音码的大众;坚持不懈的中西文化交流使西文标准键盘的模式日渐深入人心……。《汉语拼音在科技中的利用》(刘泽先著,1959年),《电报拼音化》(周有光著,1965年),《简易速记/快速索引》陈越著,1966年),《带调双拼盲字方案(草案)》(黄乃扶良文1977)等有关著作在音码设计的理论和技巧上给人们以极大的启迪。随着全民普通话水平的提高和汉语拼音普及教育的进展,优秀音码将会日益显示出强大的生命力。它将同优秀形码形成汉字处理的并行不悖的双轨制。
周有光先生早就指出:“‘拼音电脑’是真正能同外国拼音文字电脑相比的设计。它使拼音帮助汉字,把中文带进了信息化时代。”(《百科知识》1984年第8期)拼音——汉字语词转换系统及若干优秀音码已经构造了未来高效率、大众化的中文电脑之雏形。《汉语拼音方案》是中西键盘文化的最佳接口。让我们摆脱纯形码的桎梏,迎接中文电脑的新纪元。
(二)关于双拼
双拼源于汉语传统音韵学的“反切”。清末的学者就曾提出过声韵双拼。在汉语拼音方案制订期间,也有过双拼的提案。用拉丁字母的双拼因不符合音素化的原则而被否定。用“民族形式字母”(即汉字部件)的双拼因未脱“方块”的窠臼亦未被认可。一般说来,“双拼”作为汉字改革的模式似难以成功。但双拼的构思却在拼音速记和盲文改革的研究中得到不同程度的实现。双拼方案将26个字母键作52个使用。击奇数键为声母,击偶数键为韵母。增加了记忆负担,但赢得了速度,得大于失。事实证明,在中文键盘输入中双拼原则得到了人们的普遍赞同。
双拼的最早方案是刘卫民在四通打字机上安排的。后来又在金山公司的WPS上使用,所以称为“四通”双拼。由于他对此不满,于是又设计了刘氏双拼。然而未能推开。烟台唐懋宽先生的声数码也有一个双拼,未能推开。智能ABC也有一个自己的双拼方案。但在相当长的一段时间里,许多人并不欣赏ABC。自然码由于有智能相关处理等令人耳目一新的功能,比刘氏双拼受欢迎。之后,中文之星首创了“新拼音”的概念,即允许用户用自己设计的双拼方案,AUYOWAY自通中文输入平台也是如此。于是,就有众多双拼方案供用户选择了。
那么选哪一种双拼方案较好呢?目前的答案是,双拼——选自然码好。
UCDOS从6.0版本开始,在其智能双拼中采用了自然码键位;国标内码的中文Windows系统,不管是WIN3.X还是WIN95的双拼、微软双拼输入法都基本采用自然码键位。中英文Windows上挂接最多的是中文之星其智能化的新双拼也使用自然码键位。黑马、AUTOWAY等主要语句输入法也允许选用自然码键位。它们在DOS和Windows系统都能挂接。
趋势已经明朗了。自然双拼键位已经几乎成为事实标准。
目前,双拼的初学者,应当学自然码键位的双拼。新研究的汉字系统或输入方法,应当采取或至少兼容自然码键位,让多数现有双拼用户能通过对比判断优劣(自然码也允许用户自己设定双拼键位)。
前几年,国家语委已组织专家拟订《汉字键盘输入用双拼键位表示法国家标准》(征求意见稿),并在1996年末于苏州召开的中国中文信息学会的学术会议上征求意见。很多同志认为音码的标准较容易产生,让我们共同来促进它。
(三)比较分析(分化同音字)依托的几种形式
双拼编码因其同国民知识背景的最大亲和性日益受到众多用户的欢迎。尽管已进入了主要以词为输入单位的阶段,从而在相当程度上解决了(较单字录入)重码率高的问题,但远未全部解决。人们注意到,“在非议论文中,例如文学作品,单音节词出现频率较大。因此,如何分化单音节词的问题,是一个技术难点。”实际情况是:即使除了声、韵再加上调之外,还存在着单字的重码现象。于是出现了数托、音托、形托、义托和词托(统称依托)等几种不同的分化重码的有益
试验。
1.数托借助词频资料,按字频高低顺序排列同音字,用数码选择。先出现不分声调的第一个高频单音词,然后还可标注声调,分别再出现一个高频单音词。这就方便了相当比例的单音节词的录入。字频统计结果符合原始材料的实际,但未必符合操作者录入材料的实际,再说,数字与语音、语义毫无联系,枯燥乏味,难以记忆,不易掌握。有些部
2.形托将汉字的部件(不论有读音与否)按形近等原则联想安排在键位上;件和笔画没有精确的读音,音托不能贯彻到底,需用形托辅助。形托往往牵强比附,有较大的随意性,易学性指标不高。按形分类的伸缩余地最小,因字形是一个实体线条的有机聚合,一旦设计了拆分规则,并为用户所掌握,就不易出现“二义性”,相对于义托,难度稍低。
3.义托按单字字义的类别归属范畴安排在键位上。若按字义分类,几乎一个汉字为一个意义单位,而字义的一般分类是一个复杂的问题,涉及人类文明的各个方面,历来是哲学家、语言学家争论不休的问题。要想解决好,然后对应到二三十个键位上,难度极大。笔画类部件无法归类,义托也不能贯彻到底。
4.词托,即以词定字反联想。键入一个常用双音词的编码后,先出现该词的第一个字,不必敲空格键,则第二个字不会顶出。如“re ai(热爱)”只取“热”;“pi qi(脾气)”只取“脾”。
5.以形定字。增加字形信息,以减少同音重码。如“bak吧”和“bac芭”,“字”和“zim梓”,“qiw琪”和“qis绮”。(其中k为口,c为草头,w为王旁,q为其,s为绞丝旁,皆作“定字字母”。)(参见《电报拼音化》)
6.音托按有读音部件的声母构成编码的组成部分。音托最简洁明了,但一些部件因没有读音而无法称说(除非编码者妄加杜撰)就只好求救于形托了。比较而言,暂且除去词托,“音托+形托”尚是一条切实可行的权宜之计。下面将音托、形托和义托列表比较如下:
注:“数托”以声数码为典型代表,不存在纯粹的音托和义托。
词托彻底摆脱了汉字字形的的束缚,同语言的建筑材料——词汇挂上了钩,是一种十分有意义的尝试,值得认真研究。现举例如下:
扳BJU;(“扳手”的“扳”)芬FFF;(“芬芳”的“芬”)
广GDD;(“广大”的“广”)积JIJ;(“积极”的“积”)
恪KEU;(“恪守”的“恪”)陆LUD;(“陆地”的“陆”)
梅MZH;(“梅花”的“梅”)铅QMB;(“铅笔”的“铅”)
注:编码的构成方式为“声+韵+声+;”,其中第四码为分号。(此处以自然码为例,分号用来凑足四码。若第四码用韵母,则可能同某双音词重码。)
文改老前辈郑林曦先生在一篇文章(《实用汉语拼音以推进语文现代化》,载北京市语文现代化研究会编《文改之声》第34期)中说,目前汉字还是法定文字,汉语拼音字必须有一套跟汉字互相对应的办法。……有人在研究按照“以词定字”的原则,给通用的七千几百个汉字设计出一套“拼音—汉字对应符”。笔者认为这条思路很可能会给中文电脑的长足进展带来令人瞩目的贡献。
(四)字本位和语本位
——试谈键盘输入方法的两大分野
语言是思想的直接现实,文字是语言的书面符号。因此,信息的第一载体是语言,信息的第二载体是文字。比较而言,表音文字系统的符号数量很少,表形文字系统的符号数量极多。当今世界上流行的众多表音文字都直接使用拉丁字母或其变体,最典型的代表就是英文。不容否认,英语的广泛传播反映了其成为“世界语”的不可抵御的趋势。同时,约定俗成的QWERT键盘已被公认为事实上的国际标准,而计算机的母语是英语。所以,在承袭QWERT键盘的前提下,将本民族的语言(或文字)信息通过标准键盘送入计算机就成为许多国家科技人员攻关的课题。
在方言分歧严重、有着深远的重文轻语传统的中国,人们首先想到汉字输入而不是汉语输入,这是十分自然的。“万码奔腾”既体现了这个东方文明古国追赶世界先进科技潮流的雄心,又折射出汉字文化面对飞速到来的信息化社会难以尽快适应的无奈。汉字编码不是直接处理信息的第一载体——语言,而是着眼于其第二载体——成千上万的汉字。随着《汉语拼音正词法》的逐渐完善,一种类似于拼音文字的准文字方案终会出台。这种为准表音文字输入服务、与基础教育密切相关、同国民知识背景有最大亲和性的非编码系列的方案可能会受到越来越多的人的青睐。看来这种展望是符合客观规律的。许多研制者和使用者对汉字编码情有独钟是事出有因的。那就是普通话远未普及和“同音词有害论”带来的疑虑。不过,我们完全可以预见,改革开放的今日中国为适应经济腾飞、文化交流、尽快进入世界信息高速公路的的迫切需要,将迫使义务教育将普通话以前所未有的深度和广度普及开来,使会说普通话成为全体国民知识结构的重要组成部分;加以“同音词无害论”在理论上和实践上日益表现出来的不可抗拒的说服力,待到将来的某日,“转换系统”至少会占据汉语信息输入技术的半壁江山。三年前我在这里作的报告就曾预言,如果说前十年的竞赛在各种编码方案之间展开,那么后十年的竞赛可能在各种“转换系统”之间展开。编码系统(字本位)和非编码系统(语本位)这两大流派此消彼长,是否会导致一个斗转星移的崭新局面的出现,让我们拭目以待。
(五)关于软件的智能功能
软件的智能功能表现在多个方面
一是高频先见,用过提前。即单字在用过几次后,将自动排列到提示行的前列。这样可以减少选择的操作。
二是智能双关处理。语词之间的搭配有一定的随意性。但若从语法、逻辑等多角度考察,又有一定的规律性。例如,“国家”之后用“权力”,不用“权利”;“民主”之后则反之。有的软件具有“瞻前”功能,一旦形成一次搭配关系以后,再次使用这个短语时,即可根据前面的语词属性自动的在其后的若干同音词中选取相应的一个,排在最前列。这被称为“自动记忆”。“顾后”功能,即一旦后面出现某词后,它前面的某词即可改换为相应的同音词。如若后面出现“勇敢”,则前面的jizhi一定是(或自动改换为)“机智”,而不可能是“机制”。
三是朦胧回忆。即刚刚输入的词如果再需要它可以首先出现。
四是自定义词,即动态造词、在线造词。软件允许用户在输入过程中,及时将词库中没有的词按一定规则定义出来,而且即时存盘。造过一次,永久使用。
提高智能水平是汉字软件设计的一个难度最大但十分迫切的课题。当然,这已超出“汉字编码研究”的范畴了。所以,有一种观点是,汉字编码本身不应该有什么专利,只有插上软件技术的翅膀,才具有专利获取的可能。
有一个不解之谜,就是据说台湾等海外人士中绝大部分用纯形码——仓颉码。不知原因如何。
五、其他
尽管五笔字型并不像一本干部教材所说的是国内外公认的优秀输入法。但它的历史贡献和历史地位必须充分肯定。脱离具体的时间、地点,就不可能公允地分析问题、评价功过,就不是历史唯物主义的正确态度。它的历史性、革命性的贡献是不可抹煞的。然它有这样那样的缺点和不足,它毕竟代表了一个辉煌的阶段。它为人们提供了一个可资借鉴的样本,激发了一大批有志者投入汉字编码的研究之中。这也应当看作是它的一个重要贡献。同时,在列举它的缺点和不足的时候,要看到这其中有很大一部分原因是历史的局限。超越历史条件的苛求当然也不是历史唯物主义的正确态度。“五笔字型”的缺点主要表现在:
其一,“五笔字型”违反语言文字规范。显然,它对规范的汉字教育的冲击同其应用范围的扩大成正比。扭曲和破坏汉字的传统结构,不能被认为是对汉字的发扬光大。针对有人漫无边际地吹捧五笔字型再造了汉字的辉煌,有人说,以五笔字型为代表的形码是对语文现代化的一场浩劫,如果说有什么贡献的话,那就是惨痛的教训。看似耸人听闻,实则振聋发聩。
其二,“五笔字型”难学易忘。1995年3月27日《瞭望》第13期,题为《透过“五笔字型”专利纷争的思考》的文章说:“来自上海市微机应用能力考核办公室的信息表明,今年以来上海市进行过两次市民微机应用能力考核,共有7万多人参加,……这两次结果有97%以上的应考者没有使用‘五笔字型’。不少应考者反映:‘五笔字型’要背上百个字根,实在难记。非专业人士很难倒背如流,熟练运用。”使用电脑的目的是为了节省脑力、提高工作效率,如果要求使用者死记硬背同知识背景有相当距离的硬性规定,并且一些日子不用就会忘记,那么就同使用电脑的初衷相抵触。所以,“难学易忘”是普及型方案的癌症。当年,我曾经愤愤不平地说,它把千千万万个聪明伶俐的姑娘小姐变成了可怜的拆字人机器。现在,我仍然这样坚持这种说法。
其三,“五笔字型”经不住科学检验。有关专家介绍说,“五笔字型”技术只是数百种汉字输入技术中的一种,不管是在80年代初,还是在现在,它都不是最佳的方案。专家陈一凡介绍说,“1986年,国家科委、国务院电子振兴办公室、国家标准总局和中国中文信息学会等有关部门组织专家对国内上机使用的51种汉字输入方案进行一次技术评测,最终评选出11种“A”类汉字编码方案,而‘五笔字型’则榜上无名。”
说到这里,我们不能不赞赏文汇报记者冯海锋先生的先见之明。他在1989年4月25日《文汇报》上发表了一篇题为《汉字编码要坚持优胜汰劣》的述评。作者认为,应该“严格按照科学标准进行筛选,防止通过商业竞争并借助行政力量强行推行某种编码的弊病”。该文明确指出:“1986年曾举行过全国汉字编码评测活动,结果名列前茅者未能得到推广,而名落孙山,甚而被取消评测资格的编码却大红大紫。……事实上,在没有分清优劣之前,用行政手段向全国推荐某种编码,扼杀更优秀编码的出现、推广的机会是极不慎重的。”不过,敏感的外国同行有时倒比我们的一些同胞聪明些。为了将刻在木板上的佛经文献输入电脑,1994年底,韩国三星集团公司的代表到中国实地考察,物色优秀的汉字输入编码。最后,从几十种中文输入法中,经过比较和研究,选中了“郑码”。
五笔字型的走红得益于多方面的因素,社会需要的机遇催促了它的诞生;尽管学术评分不高但借助行政力量著称造成了事实上的不正当竞争;它的前景如何?本人认为,使用者的绝对数字还会慢慢增加,然而所占百分比将大幅度降低,最后的某一天,可能会被人们抛弃,成为历史的辉煌。
人们会说,凡是存在的就是合理的。如何解释五笔字型至今长盛不衰呢?除了刚刚提到的行政干预导致不正当竞争之外,由于它重码低,熟练掌握后输入速度较快,比较适合专业录入人员使用。
1998年4月,《河南日报》发表了一篇题为《“五笔字型”将含笑退场》的文章。文章说,从5月份开始,国内汉字输入软件市场上将出现一种全新的“98规范王码”,而人们熟知的“五笔字型”将从此销声匿迹。
同时,“五笔字型”发明人王永民教授在郑州举行新闻发布会说,“98规范王码”是“五笔字型”全新的升级换代产品,也是国家语言文字工作委员会正式颁布《现代汉语部件规范》后我国第一个部件完全符合规范的形码输入法。(以上消息刊登于《青岛日报》1998年4月11日第七版)又有一轮新的宣传攻势出现在报刊电台。有文章认为,‘98规范王码符合国家语言文字规范,是具有世界领先水平的形码汉字输入技术,开创了将汉字输入法大规模纳入中小学的新局面。
云南大学张在云先生多年来一致跟踪五笔字型,从教五笔到评五笔,直至批判五笔。他在今年4月撰写的论文《评’98规范王码》一文中指出,“笔者经过学习和研究,认为新码有不少改进,尽量向国家语言文字规范靠拢,同中小学语文教学的口径一致,这是值得肯定的,但新码在理论上仍有失误,仍有不少汉字的拆分和编码不符合语言文字规范和既定规则,因此该码仍不能进入中小学和作为计算机等级考试码。”
该文在肯定‘98规范王码已作了不少改进的同时又指出,它尚存在的一些问题。主要表现在:
(一)理论上仍有严重失误
1.末笔字型识别码的提法混乱,规则不统一,有严重错误。
2.不是按笔顺编码,而是按根序(码元顺序)编码。
3.字根增多,排列规律性大大减弱,难学易忘,不便推广
(二)有不少汉字的拆分和编码仍不符合国家语言文字规范或既定规则
1.不符合中华传统文字的构字特色
2.不符合国家语言文字规范
3.不符合取大优先的自定原则
4.互相矛盾、顶撞,规则不统一,具有随意性。
该文的结论是:综上分析和所述,笔者认为王永民先生“十年磨一键”还没有磨好、磨精,在理论上存在严重失误’98规范王码对许多汉字的拆分和编码尚有这样麻阳的缺点和错误,距离国家语言文字规范化和中小学语文教学的要求还相差甚远。’98规范王码仍然不能作为国家计算机等级考试和进入中小学使用。
由于强大的历史惯性和可供选择的余地空前地多等原因,’98规范王码的用户远远不如当年五笔刚刚诞生时那样立即赢得大批用户。王永民先生极为聪明,这是不容怀疑的。问题的症结何在?一句话,削足适履或削履适足的结果也。
有人认为,中小学使用的汉字编码还应具有帮助识字教学、查字检索的功能。所以又产生了认知码。认知码是怎么一回事?
认知码由国家教委中小学计算机教学研究中心研制,是一种形音码。其基本部件有300余个,有关汉字的拆分规则有7条,编码规则有7条。基本方法是将汉字拆分成部件,再取一二三末部件的表音符编码,实例如:树(木又寸)MYC、蟹(夕用刀牛虫)DYDC。认知码在独体字和合体字之间设置了准独体字,将“产、礼、孔、扎、轧、夹、冈、网、区、凶、勿、匆”等视为准独体字;此外,又规定wei音节的表音符为V,yi、yin的表音符为i,yu、yue、yun的表音符为ü。认知码是一种字形编码,规则较复杂、并不易学,它的早期版本与语言文字规范也有若干抵触之处。
至于用“形码较适合在我国南方广大地区推行”作为向中小学生推荐形码的理由,显然是对方言分歧的消极默许。这不是贯彻执行宪法“国家推行全国通用的普通话”和中小学语文教学大纲的积极态度,实不足取。如若仅仅拿出学习拆分规则、确定编码几分之几的精力去掌握汉语拼音(这是教学大纲的基本要求),学习音码或转换系统不就轻而易举了吗?
1995年初,国家教委中小学计算机教育研究中心发出《关于推荐试用‘认知码’的通知》不久,“认知码”被家喻户晓的“小霸王”学习机选用。这引起了关注语文现代化事业的人士的特别关注。就此,该中心回答《科技日报》编辑的电话询问时称:“国家教委有关机构并没有在中小学推广任何形码。我们认为,只有全拼音汉字输入方案才能与中小学语文教学相结合,所以只在中小学推广全拼音码。由于目前的全拼方案尚有缺陷,因而我们建议用某种形码作为补充,这样做并不是推广这种形码。”(引自1995年8月9日《科技日报》)这个回答辩称,是“推荐”,不是“推广”。在展望未来的发展时,该中心的研究人员最近说:“若仅从计算机汉字键盘输入来说,音码类输入将是一个合理的选择。”“在广泛听取有关专家的意见之后,决定采取一系列措施在各地中小学校推荐使用一种音码(全拼)和一种形码(认知码)。”人们不难发现,前后发言有矛盾之处。其真实用意是为认知码全面进入社会作准备。该课题组还生硬地将编码分为“学校用”和“社会用”两种。这种人为割裂只会造成一轮新的浪费。
有人可能认为,音码或转换系统基本上只能在原有的汉语拼音的基础上小打小闹,体现不出什么发明和创造。只有形码才有发明创造的广阔天地。
认知码的主要设计人是北京师范大学无线电电子系主任、现代教育技术研究所所长、博士生导师何克抗教授。他和他的助手们在一些小学进行试验,已有阶段性成果研究报告发表。《小学语文“四结合”教学改革试验研究》是国家教委基础教育司的重点科研项目。所谓“四结合”是指“识字教学、阅读理解、作文训练、电脑应用”四者结合。其中的汉字输入法就是认知码。由于各种原因,我认为今后发展情况不容乐观。
(三)下面从语文现代化的角度来为认知码把脉,看看它的前景到底如何?
语文现代化是语言文字学术界近二十年来讨论的热点问题。
我们在这里只能作一个简单的介绍。语文现代化主要包括五方面的内容。
1.汉族语言共同化。主要指普通话的研究和推广。
2.书面汉语口语化。主要指将五四以来的白话文运动继续深入开展下去。
3.表意汉字简便化。主要指汉字的简化整理工作还需要稳妥进行。
4.汉语文字拼音化。主要指广泛使用和研究汉语拼音,在汉字不便应用的情况下,用汉语拼音作为表达思想的另一工具。实现“一语双文”的目标。比如,1998年10月在云南昆明举行的全国第三次语文现代化学术会议上,尹斌庸先生的论文《让旱烟拼音和“伊妹儿”永结良缘》提出一种音码方案,是用“音节+两位数码”(前一数字定调,后一数字定字)转换成汉字。
5.信息处理电脑化。主要指在汉语拼音的基础上构造“计算机汉语”,而不是像现在这样只用英语。当然,这只是学术上的研究新动向,远远不是成熟的结论。认知码明显不符合以上关于语文现代化的基本设想。因此,这将是它在学术上受到的严重挑战。
规范码是怎么一回事?据《中文信息》杂志1996年第2期报道,“规范码及其规范化大纲”是国家教委基础教育司主持的《全国中小学教学用汉字编码规范和计算机汉字输入系统(926工程)》“八五”攻关项目的研究成果,现已完成,由国家教委主持于1995年12月28日在北京举行了鉴定会,为全国中小学提供了规范、易学、通用的音码、形码兼备的汉字编码方案和计算机汉字输入系统。这个项目研制的指导思想是:
⑴严格遵守国家语言文字政策,遵循国家技术监督局发布的关于中文信息处理的有关规定,符合国家教委规范的有关识字教育要求,以汉语拼音为基础,确保方案的规范性,科学性和实用性。
⑵以规范、易学、高效为目标。
⑶面向中小学教育,面向未来信息社会。
⑷使识字、查字、写字、打字融为一体。
⑸做到中小学语文基础教育和计算机教育输入技能教育相结合,规范码的输入和优化的系统相结合。
⑹音码形码互补兼容。
现已研制出三项技术成果:
⑴全拼双拼码(规范Y码)及其计算机汉字输入系统。全拼双拼二者并存并用,处于一个系统之中。有单字处理和词语处理。
⑵字根拼形码(规范Y码)及其计算机汉字输入系统。包括整字分解原则,规范字根的选取根据、规范字根在键盘上映射技术、单字处理和于此处理办法等。
⑶规范化大纲。包括理论部分和实践部分。鉴定委员会认为:该系统在国内外同类方案中具有领先水平。该项成果的推出,必将对全国中小学教学和社会普及计算机的应用产生重要影响,建议国家教委及有关部门尽快推广使用。
规范码在北京的几个学校进行了初步试验,效果良好。从试用感应看,学校的老师和学生对上述方案及其系统是满意的,认为基本上达到了规范、易学和高效的目的。《中文信息》杂志1996年第2期有较详细的报道。据推测,规范码可能会比认知码看好。
然而,一种具有商品性质的文化技术的推广不同于一般的文化知识的传播。决定其兴衰的因素很多。笑到最后的未必是最好的,没有笑的机会的未必是差的。规范码至今无声无息,就是明证。
六、选择
我们到底应该选择哪支笔?
到目前为止,现在可供我们选择的键盘输入法已经不像前些那样令人眼花缭乱了。我们到底应该选择哪种键盘输入法呢?
不同用户对汉字输入技术的要求大不相同。专职录入人员首先要求有尽可能高的速度,并且要求尽可能实现盲打;而非专业人员(即广大普通用户)则首先要求易学易记难忘,在这个基础上,也希望能有较高的速度。因此,不同的用户可以根据自己的需要,并充分考虑自己在电脑和语言文字方面的特长选择适合自己需要的一支笔。
一般说来,“看稿输入”者,字形是主要的,而读音是次要的;还有一些以单字输入为主的输入工作(如大量的一次性的人名、地名输入,和以单字词为主的文言文的输入等),必须避免在大量的同音字中进行选择,在这些方面,形码方法自有其突出的便利之处。
对于一些年纪较大、不懂汉语拼音,或者普通话发音不准、地方口音较重,又没有时间和精力去学习记忆字根法复杂的拆分编码规则,但汉字书写较正规的人,可以考虑用笔形码(类似于前面提到的“拼音+笔形描述”中的“笔形”),虽然速度较慢,但不必学习,一看就会。或者干脆用笔输入法。
有的用户有基本的拼音知识,由于工作关系,不要求达到很高的输入速度,但要求输入操作与大脑的思维过程同步,又希望尽可能减少重码选择,以避免脑力的过度紧张;总之,他们希望能有一种“拿来就能用”的简便的输入法。看来,智能ABC、微软全拼容易满足他们的需要。
对于以“想打”为主,又有一定的拼音基础的广大普通用户,不少人不满足于“拿来就能用”,他们还希望以增加少量的记忆为代价,较大幅度的提高输入速度。那么,在当前的情况下,自然码、微软双拼输入方法,具有强大的实用性和广泛的适应性。这已经为新闻工作者、文学工作者、普通机关工作人员和科研、教育工作者的实践所证明。
还有一些用户主要从事“听打”的工作,(如法院的书记员、会议的记录员,以及部分从事其他秘书工作的人),他们所要进行的实际上是纯粹的语音输入工作。对于他们来说,重码率较低、输入速度又快的新型拼音码(如亚伟速录机)无疑是他们的最佳选择。
年轻干部,由于从学校出来不久,一般说来普通话基本过关,汉语拼音也不会全部忘记。年纪稍大者,如果普通话说不好,应当补课,并且掌握汉语拼音。普通话是公务员的工作语言,这种要求不为过分。既然有了普通话和汉语拼音的知识,智能ABC(DOS平台下有天汇ABC)、微软双拼、自然码、全音双拼都是不错的选择。所以,应当克服必学形码的思维定势,引导广大干部学习易学好用的录入方法,接受愉快教育。但是,总有人学不好拼音,那就只好学形码了。仅从易学性来看,表形码、认知码要比郑码好学一些。同时,这三种编码具有音码难以实现的优势,那就是都能适应大汉字集。
中小学生应当按照教育行政部门的要求去做,以全拼为主,不能各行其是。具体说来智能ABC、天汇ABC、微软全拼都是较好的选择。国家教委全国中小学计算机教学研究中心在回答《科技日报》编辑的电话询问时称:“国家教委有关机构并没有在中小学推广任何形码。我们认为,只有全拼音汉字输入方案才能与中小学语文教学相结合,所以只在中小学推广全拼音码。”在展望未来的发展时,该中心的研究人员最近说:“若仅从计算机汉字键盘输入来说,音码类输入将是一个合理的选择。”
针对有的地方要求小学生必须学习某种汉字输入法,中国工程院院士、国家“863”计划首席科学家汪成为教授认为,有些事情不要太强求一致,不必用行政命令让孩子们去学习哪一种输入方法,因为中文输入的方法发展很快。国家语委决定普及汉语拼音,应更多地推广基于拼音的一些输入法。在他看来,学校培养的学生和机关的工作人员,并不是打字员,不必去追求绝对高输入速度。实际上,使用计算机时,大部分时间是用脑子身体思考,真正用于敲键盘的时间很少。(《中国电脑教育报》1998.7.22)
现在,想借这个机会谈谈在中小学进行某种输入法试验的问题。
编码方案的学习同其他科目有所不同。比如,广播操试验、防近视眼罩试验、英语教学法试验等等。掌握纡编码不仅要求学生同以往的语文知识相结合,而且需要一次强记忆过程。这是要付出相当精力才能达到的。而且,一旦这个方案试验结果不理想,需要学生统统忘记,然后再将另一方案从头学起。这个过程中,学生是要付出一定的精力为代价的,这是另一种光荣的牺牲。这种试验在大面积推广之前是十分必要的。
毒品依赖性试验用猴子,药品实验用小白鼠,广播操试验用学生。编码试验当然也要用学生。不过应当先在小范围内试验,一旦成功再向大面积推广。
某市在全面推广某编码之前,在五所中小学作试验,结果五块试验田颗粒无收,就匆忙编入课本。最后还是颗粒无收,只好偃旗息鼓。事实证明,可爱的空想不能变成事实。
现在,人们越来越认识到,教育是一种特殊的产业。教育商品、文化商品是特殊的商品。它们不但有商品的一般属性,而且还有提高全民族文化素质、直接为社会精神文明建设服务的崇高义务。因此,在向中小学生推荐某种编码方案时,要特别慎重和细心,绝不可马虎从事。
七、崇尚
“题外谈”:崇尚科学,鉴别优劣。
1999年6月21日,人民日报发表题为《崇尚科学,破除迷信》的评论员文章。6月24日,人民日报又发表著名学者任继愈的文章《不仅要脱贫,而且要脱愚》。有关专家指出,必须旗帜鲜明地反对伪科学活动。在列举伪科学的种种宣传手法中有一种的表现是,“不着边际地自我吹嘘,什么创世纪的发明、新的里程碑等不一而足”。伪科学是应当受到反对的。毫无疑问,欠科学也是不应当得到赞赏的。轻易地把一种编码说成是“电脑汉字输入的重大突破”“不经试用不敢相信的神奇方法”,恐怕有夸大其词之嫌吧。甚至说什么“不可思议的世界奇迹”。我们只好同它一起插科打诨地说,这是“不可思议的国际玩笑。”。
另有一份更令人吃惊的叙述,让我们不厌其烦地介绍如下。
有份小报说,“国内外专家预言,某某编码为‘汉字中的门捷列夫周期表’,在未来网络时代将是制作信息源与快速检索信息的主流技术,并将促使汉字迅速走向世界发挥巨大作用。”“全球数百家(笔者注:无法核实)媒介予以频频报道”等等。把某码抬到吓人的高度。小报一篇文章的标题是“中国普及电脑的关键技术”,当然就是指这种编码。遗憾的是,大规模宣传九年之久的这种编码至今没有得到任何一个国家职能部门的技术鉴定,没有被任何一个计算机集团公司所采用。
还有一份说明书的封面上醒目地标注着,“本说明书由微软公司印刷商——瑞兴得印务赞助并承印。”还有一本书的封底印有“90年代唯一入选UCDOS/WIN7.0双平台”字样。真是吹牛没有纳税的顾虑。
伴随着对这种编码的不当评价,是对发明人的不当评价。一份小报说:“汉字键盘输入,曾经是一道‘世界难题’。突破这道‘世界难题’的是支秉彝院士发明的‘见字识码’;较大面积推广汉字键盘输入技术的功臣,是发明各种编码的发明家;彻底解决这道‘世界难题’,而使汉字输入易学易用、规范合理、快速高效趋于极限状态的,是被国际科技界誉为‘划时代的汉字输入方案’的‘某某编码’发明人,年仅15岁的中国少年发明家某某某。”“这种编码已获中国、美国、英国发明专利,是世界上年龄最小,获国家专利最多、全球媒介宣传最多的一项重大发明。”“小发明家曾向同龄人倡议:‘让一百万人学会操作电脑。’某某某倡议的‘百万工程’,获得了全社会的响应。中国掌握电脑的人已突破百万,成为中国进入信息时代的开路先锋。现在,小发明家某某某进一步倡议:‘让一百万人上网。’”这些语言不禁使人想起了“肉麻”和“荒唐”。甚至不惜引来偷税漏税的嫌疑,在刊物上吹嘘她已经成了靠科技致富的“亿万富翁”。真是令人匪夷所思。
看到这些不着边际的大作,我不禁写下一首小诗:
妙笔生辉辞溢美
虫兮龙兮天花坠
提法上不可思议
敢问天下人常醉
还有一种方法更具有迷惑力,即借用名人效应,哗众取宠。逻辑学分析的一种远离有效论据,而用抨击他人品格作为论证方法的逻辑错误叫作“人身攻击”;而借用名人来为自己壮胆称为“滥用权威”。
比如一份非法印刷品说,“江泽民、朱镕基、李铁映、雷洁琼、宋平等中央领导同志曾多次予以关注。”其实,即使是曾经“关注”,也不能等同于“技术鉴定”。
还有另外一些幼稚的论证方法,比如说什么“在全国领先的计教科书中,某市小学、初中、高中版中(将某码)列为最新首选技术。
其实,反对者完全可以这样评价,正因为它采用了一种形码就根本不能称为“在全国领先的计算机中小学教科书”。这在逻辑上被称为循环论证。
又见到一份材料,上面写到,某编码被挂上一著名汉字平台,被定为唯一首选新码。可是在另一份正式出版物的封四页上却有意无意地略去了“新”字,成为“唯一选码”。有人的理解中,有意无意地忽略了“新”字。好像“全拼”“双拼”也靠边站了。这在逻辑上被称为“偷换概念”。
回顾历史,我们感慨万分。明朝曾经有郑和三下西洋的光辉记载。
后来,封建统治者实行“海禁”,闭关锁国,中断了会给民族复兴带来希望的中外交流,夜郎自大,自我封闭,失去了宝贵的机遇。终于酿成以鸦片战争为开端的百年耻辱。
改革开放以来,我国的物质文明和精神文明建设迎来了前所未有的大好局面。全国人民意气风发,在邓小平理论的指引下,披荆斩棘,破浪前进。我们在看到前途是光明的同时,也应当看到道路是曲折的。唯物主义和唯心主义的斗争,科学和迷信的斗争将是长期的、复杂的、艰巨的。在特定时期、特定领域里,浮躁、浮夸的肤浅之风,轻言、轻信的轻率之举,曾使不少人晕头转向,忘乎所以,盲目轻信,不知不觉地被伪科学、劣技术牵着鼻子走,浪费了宝贵的时光和金钱,造成不应有的损失。
中国科协科普研究所郭正谊研究员说,“必须充分认识破除反科学、伪科学的长期性、复杂性、艰巨性,大力加强科学技术的普及工作,掌握科学知识,应用科学方法,学会科学思维,在破除伪科学的斗争中,不断提高辨别科学真伪的能力,从而战胜迷信、愚昧和贫穷,为科教兴国战略的实施奠定坚实基础。”
作以上“题外谈”的用意是,提请大家在鉴别取舍计算机汉字输入软件的时候,应当保持清醒的头脑,交换、比较、反复,根据不同的对象、不同的需要,做科学的选择,讲求实效、少走弯路。
我的电子信箱地址是:[email protected],欢迎各位同我联系,互相帮助,共同进步。
1999.7.18于青岛
张孝存更多作品
世说文丛总索引
评论