关于每天打字用的中文输入法你了解多少?

2016年12月14日16:26  来源:北京日报
 
原标题:中文输入法 智慧的代码

多少年来,打字一直是长篇文字最清晰、最整洁、最快速的录入方式,而使用键盘上26个英文字母按键,敲击出数万个繁复美丽的汉字,几代华人进行了不懈的努力。难怪有外媒惊呼:计算机的发明将中国庞大的汉字目录转化为一项优势,中国打字技术的先进程度远超西方。

早期中文打字操作难

汉字是世界上最美丽的文字之一,汉字的数量多得惊人,从炎黄时期至今上下5000年,古代每个朝代都会造出新字,最著名的如武则天造的“曌”字。

究竟汉字有多少个呢?清代《康熙字典》有47000多字;1915年欧阳博存等编撰的《中华大字典》有48000多字;1959年日本诸桥辙次编撰的《大汉和辞典》收字49964个;1971年张其昀主编的《中文大辞典》,有49888字;当代的《汉语大字典》(2010年版)收字60370个;1994年中华书局、中国友谊出版公司出版的《中华字海》收字85568个;我国台湾地区教育主管机关编撰的《异体字字典》第五版,内容含正字与异体字,共106230字,是收录最多汉字的字典。

应该说,汉字的数量并没有准确数字,大约将近十万个,北京国安咨讯设备公司汉字字库收入有出处汉字91251个。汉语难学、难写在世界上是出了名的,不过如果真的需要我们掌握这么多汉字,那难度实在是太大了,好在我们日常所使用的汉字只有几千个。有人做过这样的统计,大约1000个常用字能覆盖约92%的书面资料,2000字可覆盖98%以上,3000字则已到99%。

即使是经常使用的只有几千字,中文打字也是一件不容易的事。1915年,山东留美学生祁暄发明的中文打字机获专利。此前,他将自己发明的打字机说明报请留美学生经理员转详教育部,请予转咨农商部。农商部以祁暄所制打字机器运用灵便,构造完备,所印字迹尚鲜明,特准按照暂行工艺品奖章给予专利5年,以示鼓励。

这个中文打字机是什么模样呢?一个约A2纸大小的盘上,排满了铅字,铅字的排列次序跟报馆的习惯一样,按部首画数排列。打字员首先要在铅字盘上用一个小钳把铅字钳起,再按一键时,小钳就会举起铅字,隔着色带印在纸上,当打完一行按回车键之后,又会自动卷回页首,并跳往下一行。这台中文打字机的工作原理和英文打字机基本一样,而且能够配合当时中国人书写习惯,允许文字打直排。由于中文打字机的操作并不容易,捡字也很困难,因此在上世纪60年代的香港,只有比较富裕的学校,才有能力负担一名能操作中文打字机的打字员。

除了手动式的中文打字机,还有电子中文打字机。一般印刷公司都是用电子中文打字机,其捡字方式变成了用电子笔在一个超大键盘上按键,每个按键代表一个中文字。字型是记录在一张微型的底片上,再利用光学技术投射在一张俗称“咪纸”的感光纸上。早期的电子打字机是由日本发明生产的,所以其中的铅字是按日语发音来排列,后期亦有按笔划排的,但字型大多数亦是日体汉字。

现代输入法音码率先诞生

英文输入法可以说是伴随着个人计算机和文字处理软件一同出现的,10个手指敲击键盘,26个英文字母自然跃然屏上,打字原理基本和英文机械打字机一样。但在小小的电脑键盘上,使用26个字母按键输入浩如烟海的汉字,可就没那么容易了。

从汉字的逻辑构造上看,汉字不能像英文那样被分成少量的元素单位,从而不能进行以文字构造为基本单位的分类归放、处理等。虽然汉字可以分成不同的部首、偏旁等文字基本构件,但是被分成的基本构件数量过多并且基本构件在组成汉字时的位置、方位、朝向,都将决定汉字的构成,这就大大限制了汉字直接以本身的构造来进行快速录入。

由于汉字有数以万计,电脑键盘不可能为每一个汉字而造一个按键。因此,人们需要替汉字编码,通过敲击多个按键来输入一个汉字。最早的汉字输入法,一般认为是从上世纪70年代末80年代初期开始的,最先出现的是拼音输入法。

汉字为什么会有拼音呢?我国古代汉字读音大多采用“两字相切”的读音方法,如“东”(都笼切)。这个方法显然太繁琐,不易读准。公元1610年,法国有个叫金尼格莱的传教士来到中国,在中国日子长了他就成了中国通。西方人该怎么比较容易地读出汉字呢?1626年金尼格莱写了一本书《西中儒耳目资》,在这本书中,他首次准确地用拉丁拼音字母记录了汉字的读音。金尼格莱在中国期间结识了学者韩云、王征等人,并在他们的帮助下,在利玛窦等传教士汉语注音的《西字奇迹》基础上,编写了中国第一部拉丁化拼音字汇。

汉语拼音在中国大陆使用范围十分广泛。海外华人地区,特别是华语地区如菲律宾、马来西亚和新加坡等,目前也在汉语教育中进行汉语拼音教学。1955年,语言文字学家周有光提出普及普通话的两项标准:全国汉族学校以普通话为校园语言,全国公共活动以普通话为交际媒介,并提出汉语拼音方案三原则,即拉丁化、音素化、口语化。1958年,汉语拼音方案经全国人民代表大会通过;后周有光出席国际标准化组织会议,促成投票通过汉语拼音方案为拼写汉语的国际标准。之后,周有光继续研究以词语为单位的拼音正词法,形成《汉语拼音正词法基本规则》,并于1988年公布。而周从上世纪50年代开始主编的《汉语拼音词汇》,成为电脑中文词库基础。

五笔字型具划时代意义

拼音类的输入法包括大陆的拼音输入法和台湾的注音输入法等。拼音输入法相比其他输入法有着天然的优势,因为现代每一个接受教育的中国人,在还没学习汉字前就先用大量时间学习汉语拼音或注音符号,因此原本只是用来标记汉字读音的拼音,也就可以轻松地作为汉字的输入编码。拼音输入法另一个优势就是接近口语,所以拼音输入法可以让学习者在极短时间内适应。

但是,拼音输入法有个致命的弱点,就是编码时单字重码率非常高,即使是词组重码率也是非常高。尤其是在诞生之初,软件功能差,字序固定,不支持词组和整句输入,甚至文字不能和编码一起显示。在输入汉字过程中,常常要翻很多页才能找到需要的汉字,输入效率非常低下。虽然当时很多人只会用拼音输入法,但大部分人都不满意拼音输入法的输入效率。

1983年,王永民推出了划时代的五笔字型输入法。五笔输入法采用普通的电脑键盘,只使用英文字母键其中的25个参与编码,不但可以让我们输入汉字,而且极大地解决了输入速度慢这一顽症。

五笔字型完全依据笔画和字形特征对汉字进行编码,是典型的“形码”。形码是相对于音码而言的,形码输入法是依据汉字字形,如笔画或汉字部件进行编码的方法。最简单的形码输入法是12345五笔画输入法,广泛应用在手机等手持设备上,电脑上形码广泛使用的有五笔字型输入法、郑码输入法,在港澳台等地流行的形码有仓颉输入法、行列输入法、大易输入法等。作为国内第一个推广的形码输入法,五笔字型一经推出即受到很多用户的热捧,在上世纪80-90年代,很多人学习电脑的第一要务,就是学习五笔字型输入法,五笔教学培训班也遍地开花。

五笔字型输入法和拼音输入法不同,需要认真学习,刚开始不容易上手,但一旦背熟了“字根表”,使用五笔字型可以实现“盲打”。这个巨大的优势让“能否掌握五笔字型”成为打字是否专业的标志。

尽管王永民掀起了全国学习使用五笔字型的高潮,但是五笔字型学习难度高,而且编码存在一些不合理的地方,比如字根不符合汉字基本部件与违反笔顺的问题,所以一直无法成为国家教委的推荐输入法。在上世纪80-90年代,由于国家教委尚未有推荐输入法方案,所以在中小学里教的汉字输入法相当多,各个学校教汉字输入法也不尽相同,有的教五笔字型,有的教自然码,有的教肖码等。不过由于五笔字型输入法可以快速录入汉字,因此在全国范围内得到较为广泛的商业推广。

中文输入已快过英文输入?

计算机和手机汉字输入法的探索发明之路已走过了近30年。这30年可以用“万‘码’奔腾”来形容,市面上除了五笔字型输入法、全拼输入法外,自然码、郑码、黑马输入法等各种各样的输入法纷纷涌现出来。

尽管五笔字型输入法有诸多好处,但“难学”这个致命的弱点让其难以高度普及。反倒是拼音输入法,因为是操作最简单的输入法,始终没有被抛弃。21世纪初期,拼音输入法有了长足的改进,以微软视窗操作系统内置的智能ABC、微软拼音输入法以及市面上非常流行的拼音加加、紫光拼音输入法为代表,这个时代的拼音输入法,随着智能联想、自我学习、模糊、细分专业词库等功能的不断完善,用户使用拼音输入法录入文字的速度得到大幅提升。由于拼音输入法不需要用户花费额外的学习成本,因此很快赢得青睐,这个时期的拼音输入法奠定了其成为中文输入法主流的市场地位。

到了2005年以后,搜狗等新一代拼音输入法崛起。新一代拼音输入法充分借鉴了互联网的优势,通过自动升级词库等方式,保持词库处于最新状态,嵌入了网络搜索的功能,智能化程度更高,自我学习能力更加强大,增加了英文单词提示、中英文词典等功能,还可以通过网络保存用户个人使用习惯和个人字典。随着各种个性化皮肤的涌现,其屏幕展现形式也更加丰富多彩。

为占有用户桌面端,越来越多的IT和互联网厂商开始涌入拼音输入法这块阵地,如搜狗、QQ、谷歌等,甚至阿里巴巴和百度等也开始涉足拼音输入法领域。厂商争夺这块市场已经远远超出了占有拼音输入法市场本身的意义,已成为厂商占领用户桌面端、移动终端的重要手段。

今年10月29日,2016搜狗大会在北京举行,搜狗CEO王小川做了题为“搜狗的人工智能之路”的演讲,提出搜狗输入法将推出智能回复和分享功能。王小川称,未来输入法不只是一个表达工具,它可以理解你的想法,别人向你提问,输入法会自动代替你回复。搜索的未来在于问答,未来搜索引擎将做到输入一个关键词获得一个精确的答案。搜狗搜索的下一个目标,是把从今天的关键词系统变成问答系统,而搜狗已经逐步上线这样的能力,大概有5%-10%的问题可以直接给答案。

据美国《大西洋月刊》网站11月1日报道,研究现代中国的历史学家汤姆·马拉尼正在举办中文打字机和键盘展览。这个展览令马拉尼得出结论说,中国正在打字技术方面大踏步前进,而西方远远落在后面,仍然紧抱着QWERTY键盘不放。

马拉尼提出,在QWERTY电脑键盘上打英文,“是使用键盘的最基本方式”。在键盘上按下“a”键,“a”就会出现在屏幕上。“这不需要使用计算机的处理能力和内存。”另一方面,在连接到一台中文电脑的QWERTY键盘上键入“a”,计算机将会“推测”你可能会打出的汉字。用中文输入,需要用户从软件层面来考虑问题。换句话说,键入一个汉字,本质上是键入一组指令——如果你愿意的话,也可以是一个代码——来检索一个特定的汉字。

他认为,正是中国在电报和打字机领域曾经遭遇的尴尬历史,促使讲中文的人在软件出现之后对其进行了充分的利用——以至于现在用中文输入比用英文要快得多。(武锐)

(责编:张萌、张希)