设为首页 加入收藏
rss

必读经典
您当前的位置:首页 > 科学故事

揭秘首批中文电脑字体诞生过程,将汉字「搬」进数码设备有多难?

时间:07-11来源:作者:点击数:

新的电子设备开机时,屏幕映出的首个交互页面,往往是系统语言选择。dOt城东书院※故事汇

你可以上下滑动,选择中文、英文、日文等多达上百种的文字。但如果将时间拨回40多年前,这一选项可能只有寥寥几种,而且没有中文。dOt城东书院※故事汇

我国文字的历史源远流长,但其数字化的历程却并不久远。我们现在之所以能在电子设备上阅读中文,离不开最初花费巨大力气,将中文「搬」至电脑上的那一群人。dOt城东书院※故事汇

最近,斯坦福大学获得了2500余件现代中国信息技术收藏品,包括几十台珍稀的中文打字机、文字处理器和电脑等物品,堪称世界上最大的中国现代IT历史合集。dOt城东书院※故事汇

该校一位研究中国历史的教授托马斯·穆拉尼(ThomasMullaney),在这些珍贵的藏品里发现了许多有趣的故事。其中就包括全球首批中文数字字体,是如何被制作出来的。dOt城东书院※故事汇

托马斯将这段艰辛但充满艺术的历程,在《麻省理工科技评论》上讲述了出来。我们也得以机会看见这个具有时代意义的历史片段。dOt城东书院※故事汇

托马斯·穆拉尼教授dOt城东书院※故事汇

一台机器带来的契机dOt城东书院※故事汇

故事要从一个订单开始说起。dOt城东书院※故事汇

20世纪80年代初,美国图形艺术研究基金会(GraphicsArtsResearchFoundation)找到了路易斯·罗森布鲁姆(LouisRosenblum),想请他的团队,为其正在开发的机器SinotypeIII创建出中文字体。dOt城东书院※故事汇

当时路易斯已年近6旬,毕业于麻省理工学院的他,是一名资深的印刷、排版专家。路易斯在1965年创立了PhotographySystems公司,专门解决数字工程、摄影、应用数学等相关问题。dOt城东书院※故事汇

路易斯·罗森布鲁姆dOt城东书院※故事汇

虽然路易斯及其团队此前和图形艺术研究基金会有过多次合作,但这次为SinotypeIII创建中文字体的项目,却是最棘手的。dOt城东书院※故事汇

因为当时中国还没开始生产个人电脑,其他国家或地区生产的电脑无法处理中文。所以在给SinotypeIII这台实验性机器开发中文字体前,路易斯的团队需要先对苹果二代电脑(AppleII)编程,使其能够以中文运行。dOt城东书院※故事汇

万事开头难。由于苹果二代的DOS3.3操作系统,无法输入和输出汉字文本,所以必须得从头编程,包括编写一个中文文字处理器。为此,其团队花费了几个月的功夫。dOt城东书院※故事汇

他们想出的解决方案,是先通过BASIC编程语言,编写一个「Gridmater」程序,然后将该程序放入苹果二代电脑的软盘上运行。如此一来,便能创建并保存汉字的数字位图了。dOt城东书院※故事汇

接着,将设计好的汉字位图及其相应的代码,植入到系统数据库,便可让SinotypeIII机器处理并显示中文了。dOt城东书院※故事汇

这里插入一个背景知识。早期的数字字体,均采用位图图像(也称点阵图像)来显示。dOt城东书院※故事汇

这是一种常见的储存图像的方式,我们今天相机拍摄的照片、截图,储存方式均属于位图。一张JPEG、BMP、GIF等格式的图片,是由很多像素点组成,这些点经过排列和染色,便构成了图样。dOt城东书院※故事汇

比如我们可以在电脑上将一张图片放大,放大至一定程度,便可看到正方形的像素点了。早期的字体便是在一定大小的网格内,通过排列和染色形成的。dOt城东书院※故事汇

将左图的眼睛部位放大,便可看到像素点了dOt城东书院※故事汇

中文数字字体,可比英文难做多了dOt城东书院※故事汇

中文数字字体之所以难做,首要原因就是汉字的数量实在太多了,其次是因为汉字的字形十分复杂多样。dOt城东书院※故事汇

在计算机问世之初,工程师和设计师约定采用大小为5X7的位图网格,来创建低分辨率的英文数字字体。如此一来,每个字符的大小约5个字节,计算机的内存不会有太多负担。dOt城东书院※故事汇

在美国信息交换标准代码(ASCII)中储存的所有128个低分辨率字符,包括英文字母表中的每个字母、数字0到9,以及常见的标点符号,共计需要640字节的内存。而当时苹果二代的内存为64KB,可以轻松承载英文字体库。dOt城东书院※故事汇

ASCII字符表dOt城东书院※故事汇

而中文由于字形复杂,在5X7大小的网格中会糊作一团,难以辨认。因此至少需要一个16X16或者更大的网格。dOt城东书院※故事汇

这样换算下来,每个中文字符的大小至少有32字节。如果将70000个低分辨率的汉字打包,内存至少需要2MB。再退一步,即便字库内只放进8000个常用的汉字,也需要约256KB的内存。dOt城东书院※故事汇

这无疑是一个大难题。因为在上世纪80年代初,大多数PC的总内存容量不超过64KB,根本装不下庞大的中文位图字库。dOt城东书院※故事汇

内存告急并不是最令人头疼的,因为这可以随着PC软硬件的进步得以解决。如何在16X16的低分辨率网格中,创造出既容易辨认又美观的中文字体,是更棘手的难题。dOt城东书院※故事汇

为此,路易斯团队的设计师们花了数年时间,尝试创造出满足低内存要求,且清晰易认,甚至有书法美感的中文位图。其中,凌焕铭(Huan-MingLing)和艾伦迪乔瓦尼(EllenDiGiovanni)的贡献最为突出。dOt城东书院※故事汇

他们先是借助纸、笔、修正液来手绘出汉字的位图,然后借助上文提到的Gridmater程序将其数字化,植入到SinotypeIII的系统中。dOt城东书院※故事汇

背后的工匠精神dOt城东书院※故事汇

托马斯教授在档案资料里,发现了路易斯团队设计汉字位图的全过程。在一个装满格子图的册子中,记录了设计师们是如何通过手绘散点符号来创造汉字位图的。dOt城东书院※故事汇

我们都知道,汉字的笔画并非「横平竖直」的,入口笔画、出口笔画、笔画渐变都有着丰富的细节。如何展现这种书法美?是设计师们面临的核心问题。dOt城东书院※故事汇

在这本格子册中,可以发现每个汉字都经过设计师精心绘制。绿色的「X」是最初的标记,交由汉字编辑审核后,如果哪里不够规范,路易斯及其团队便会用修正液盖住原本的标记,再用红色的「X」标记上去。dOt城东书院※故事汇

经历反复修改,经过最终确认的位图,才会输入至系统中。过程中用掉了N瓶修正液。dOt城东书院※故事汇

如果要满足消费者的需求,字库里至少要包含3000个常用的汉字。这个工程量对于团队来说是很大的。人们可能会猜测,他们是否会寻找一些讨巧的方法。dOt城东书院※故事汇

例如,对于相同偏旁部首的汉字,可以直接将偏旁部首复制过去。就像下图中「评」、「读」都是言字旁,按理说设计师只需要设计右侧不一样的部分就可以。dOt城东书院※故事汇

但是托马斯教授发现档案里类似的工作机制很少。路易斯坚持要求设计师逐字调整、设计,以确保每个字的偏旁部首看起来是协调的。即便有些改动十分细微,令人难以察觉。dOt城东书院※故事汇

托马斯教授按照档案资料重新复现了SinotypeIII的中文字体。可以发现同样为「女」字旁的「娟」和「娩」,两个字的「女」字旁的设计样式并不一样。dOt城东书院※故事汇

「女」字旁在「娟」字中的宽度为6个像素(网格),而在「娩」字中只有5个像素。另外「娩」字的「女」字旁撇点和撇的笔画,要比「娟」多一个像素,视觉上更加修长。dOt城东书院※故事汇

这样一丝不苟的设计并非个例。托马斯教授在字体库里发现了大量类似的工作,当他将位图的草稿与最终成品放在一起对比时,还能看到许多细微、有趣的变化。dOt城东书院※故事汇

比如在「罗」字中,左下角的笔画最初是以45°向下伸展的。但最终版本,笔画的尽头被「拉平」,更符合书法的艺术感。dOt城东书院※故事汇

可以看出,添加或缩减一个像素,便会对整体的平衡感、美感造成影响。这也体现出设计师们在创作首批字体的艰辛,以及背后的匠人精神。dOt城东书院※故事汇

实际上,16X16的网格,对于创作中文字体并不是很友好。最主要的问题是对称性。dOt城东书院※故事汇

我们知道,大量的汉字是具有对称性的,而根据数学的规则,只有奇数大小的空间区域,才能创建出完全对称的形体。dOt城东书院※故事汇

因此,路易斯及其团队决定只利用16X16网格中的15X15区域,来实现汉字的对称。这进一步缩小了设计师的空间,对设计工作提出了更高的要求。dOt城东书院※故事汇

得益于团队孜孜不倦的努力和一丝不苟的态度,SinotypeIII的中文字体库项目顺利完成。尽管它并未商业发布,但它的确是世界上最早能处理、显示、输入输出中文的PC之一。dOt城东书院※故事汇

当然,路易斯及其团队制作字体的方法,在当今的技术语境下看起来似乎太过古板和幼稚。现在广泛使用的TrueType字体技术,能够以矢量方式存储字体,占用空间小、渲染快、显示效果清晰锐利。dOt城东书院※故事汇

但正是他们使用「笨方法」,逐字画稿、反复修改,才让汉字得以进入数字世界。而「当代毕昇」王选院士主持研制的高分辨率字形信息压缩技术,更是彻底地解决了汉字编码储存的困境。dOt城东书院※故事汇

在这些前辈们的努力下,中文才没有被互联网大潮落下,汉语拉丁化的理论被扫进历史垃圾堆。我们今天能够使用中文在互联网上冲浪,应感谢他们曾为此付出的青春。dOt城东书院※故事汇

推荐内容
相关内容
栏目更新
栏目热门