首页 -> 2006年第9期

数字图书馆：一项全新的事业

作者：〔法〕让－诺埃尔·让纳内

　　
　　我们需要图书馆员和书商
　　
　　我们由此可以推断，图书馆员和书商们大可不必担心自己的行业会消失。
　　在未来，图书馆员的社会和文化职能将更广泛。长期以来，他们一直在给杂乱无章的书籍分门别类，以便引导读者找到自己所期待的、深藏在各类浩瀚的信息和载体背后的真知。随着数字资料的产生，这个基本职能将会起到更重要的作用。
　　至于“传统意义”的书商，我认为他们也应该对自己的未来充满信心。当然，他们必须适应新的环境，在浩瀚的书海里进一步加强自己作为向导和代言人的地位。不确实的、带偏见的、荒诞的信息在网上层出不穷。这就更需要一种有图书馆员和书商参加的机构给予审定。把书籍拆散，根据搜寻器的点击标准分别确认，并不是最好的读书方法，书必须一页一页地去读，去领会，去积累。但是Google到目前为止，它所关心的只是页张，而不是把书作为一个整体处理。显然，那些仍然受版权保护的书籍是不可能被完整地再现网上的，在网上只能看到它们的节选。如果你查找“南特+监狱”，你将获得数以千计的“点击”。在所有这些“点击”中，可能有一两条和这本书有关。即使你有幸找到了它们，又能派什么用场呢？再比如你找到这样一段引文：“1874年，南特的监狱里没有杀人犯”……而且还附出处。其实毫无用处。如果你不对你所需要的书作大量的补充查询，那么就会面对在网上找到的几句引文无所适从。这些所谓的信息一旦脱离了上下文就没有任何意义。图书馆员们要不遗余力地告诫社会：知识的大厦是一个整体，它需要全面、综合地构建，而不是包罗万象地凌乱堆砌。
　　
　　铺天盖地的广告
　　
　　Google的策略并不是像其他报刊杂志那样在页面里加广告带。Google发明了一套独特而精明的做法，它把出售的广告链接安排在屏幕的右上方，根据屏幕左方的搜寻结果而配置。由于这些广告链接是根据读者的兴趣投其所好，所以吸引读者注意力的机遇就大得多。
　　这一项业务以拍卖的方式出售。Google利用发行数字版图书的便当，有偿地给某些公司企业作宣传。这种方法必然导致发行书籍的主次排列受广告效益的支配，以最高地满足出资者的利益。
　　让我们来考察一下这种合同的不平等因素。图书馆以保护文化遗产为使命，慷慨地提供数字化的原料和数字发行所需的精神内容，利润则属于私营企业。表面上看，Google免费提供服务，但这只是一个假象。因为，借助网上阅览带来的广告价值，它实际上在变相地出售这些不属于自己的书籍的使用权。此外，Google期待数字书阅览会给它各方面的服务带来更多的网民，总体上提高自己的广告价值。
　　
　　哪些书排在首位？
　　
　　这实际上是最大的问题。因为它涉及到Google搜寻器如何排列搜寻结果的主次，恰如铁屑受磁石吸引一样，受优待的总是那些已经被人熟知或已经有读者群的书目，而且这个趋势会日益强化。
　　主次排列的建立遵循一定的计算规则，用大众化的语言来说，这是一个对搜寻结果作页面排列的自动化操作。它建立在什么原则之上？这是一个技术机密，就像可口可乐公司不对外公开它的基本生产原料的配制一样。但是人们知道，Google的排列原则主要（当然还有其他因素）根据每一页包含的链接数量；不仅如此，这个数值还要根据每一链接自身包含的其他链接算平均值——这样的连环链接可达数十亿之多。另外似乎还有一个参照系数，就是搜寻的词句在一页里被提到的次数。
　　最近一位美国教授朋友告诉我，如果他要找一句克莱特关于巴赫的评语，只要在Google搜寻器里打进“Colette Bach”，就可以很快找到他需要的引言。没有问题，这是一个很便利的咨询站。但是他接着补充说：“假如我要更泛泛地提出一个较复杂的问题，比如民主是否促进平等，那么我就要浏览成千上万页的搜寻结果。”在此，理解主次排列的标准就变得至关重要。既然Google根据阅读的次数和链接的寡众来排列搜寻结果，那么搜寻器最熟悉的网页也就更容易被其他网民的链接寻取（依照“越是有钱就越容易借到钱”的常规）。可以肯定，本来就占优势的网页会越来越占优势。长此以往，在Google描绘的蓝图里，互联网的重心必然日趋缩小在一个极有限的区域。
　　这么一锅大杂烩将不断地在Google巨大的世界锅炉里提炼。这种“Google舞会”（这个称呼挺雅致）至少一个月举办一次。它要求越来越复杂的计算，所以也需要越来越大的投资。
　　这种方法虽然比简单地记录阅读次数（否则就给舞弊行为洞开方便之门）复杂些，但是人们不难看出，它实际上还是一种使成功者更成功的方法。受害的当然是创新的、少数的或奇特的作品。总的趋势是缩减搜寻的深度，销毁持久性，这显然是对文化很不利的。
　　要保护那些我们明知在市场竞争中受威胁的自由权。比如：“发行量小”的作家的自由权，小本经营的出版商的自由权，少数民族的语言和文化的自由权等等。
　　也要谨防潜在的查封的可能。从现在起，Google就开始酝酿如何根据某某使用条例，在搜寻结果中取缔它认为不符合资格的网站的问题：Google可以拥有这类网站的信息，但是在搜寻器上却无法找到。
　　
　　图像模式、文本模式、元数据
　　
　　谈论数字化的问题，图像模式和文本模式之间的取舍和选择值得慎重考虑。图像模式是对原文一成不变的扫描复制；文本模式在目前尚需要重新作电脑输入，或者在严格的质量检验的条件下，对扫描文本作自动电脑处理。文本模式的费用通常要比图像模式的费用高八到十倍。
　　两种模式的选择应以原文的性质而定。比如报纸，显然用图像模式扫描复制更有意义。因为版页、文章的位置、标题、版面的大小等因素和一篇文章的内容几乎同样重要，它们有助于正确认识一篇文章的实际意义。
　　关于这个问题，似乎Google采用一种简化的文本模式，既不能下载，也不能加注，实际上Google不排除两种模式混合使用的可能。
　　所谓元数据，就是那些不属于原版形式，在互联网版上补充加入的比如标题、作者、参考资料等。就是建立一个目录所需的内容。人所共知，一本书若在书库里放错了位，那么就等于不存在了（这就是那些让我们的读者听了就头痛的“缺失”）；在网上，侥幸也是同样不存在的。给每一个资料补充一个内在的标记结构，使其各种用途扩展到最大的限度，例如读者加入自己的评语，各种注释、引文、参照……
　　元数据是在把一个文件复制成电子版本时添加的，它们提供和文件有关的各种不同性质的信息。有些用来描述文件，类似传统书目中的条目，包含题目、作者姓名、各种参考数据。这些数据参照图书馆界长期以来建立的分门归类体系（最著名的属杜威分类系统）或者是某些关键词系列。另一类数据用来管理文件，比如和法律有关的信息，以便更好地管理作者、译者和出版者的权利。还有一类数据和文件的内部结构有关。最后一类数据记录有关电子资料的技术特性。
　　假设“图像”和“文本”两种模式之间的差距逐渐缩小（这绝不是什么想入非非），耗资较少的图像模式不久将会得到新的技术突破。所谓光学字符识别的技术（英文缩写OCR）就是对扫描文件作自动分析，并建立索引和查找工具，以便在上下文关联中确认主题词或关键词。
　　必须时刻注意协调好“简单性”和“复杂性”之间的平衡，在日常生活中，我并不想知道我的电脑内部是怎样运行的，这和我想不到打开汽车机盖看个究竟是一个道理：只要能启动就行。
　　（摘自《当Google向欧洲挑战的时候》，北京图书馆出版社2006年5月版，定价：16.00元）
　　

[1] 2