首页 -> 2006年第9期

数字图书馆:一项全新的事业

作者:〔法〕让-诺埃尔·让纳内











  
  我们需要图书馆员和书商
  
  我们由此可以推断,图书馆员和书商们大可不必担心自己的行业会消失。
  在未来,图书馆员的社会和文化职能将更广泛。长期以来,他们一直在给杂乱无章的书籍分门别类,以便引导读者找到自己所期待的、深藏在各类浩瀚的信息和载体背后的真知。随着数字资料的产生,这个基本职能将会起到更重要的作用。
  至于“传统意义”的书商,我认为他们也应该对自己的未来充满信心。当然,他们必须适应新的环境,在浩瀚的书海里进一步加强自己作为向导和代言人的地位。不确实的、带偏见的、荒诞的信息在网上层出不穷。这就更需要一种有图书馆员和书商参加的机构给予审定。把书籍拆散,根据搜寻器的点击标准分别确认,并不是最好的读书方法,书必须一页一页地去读,去领会,去积累。但是Google到目前为止,它所关心的只是页张,而不是把书作为一个整体处理。显然,那些仍然受版权保护的书籍是不可能被完整地再现网上的,在网上只能看到它们的节选。如果你查找“南特+监狱”,你将获得数以千计的“点击”。在所有这些“点击”中,可能有一两条和这本书有关。即使你有幸找到了它们,又能派什么用场呢?再比如你找到这样一段引文:“1874年,南特的监狱里没有杀人犯”……而且还附出处。其实毫无用处。如果你不对你所需要的书作大量的补充查询,那么就会面对在网上找到的几句引文无所适从。这些所谓的信息一旦脱离了上下文就没有任何意义。图书馆员们要不遗余力地告诫社会:知识的大厦是一个整体,它需要全面、综合地构建,而不是包罗万象地凌乱堆砌。
  
  铺天盖地的广告
  
  Google的策略并不是像其他报刊杂志那样在页面里加广告带。Google发明了一套独特而精明的做法,它把出售的广告链接安排在屏幕的右上方,根据屏幕左方的搜寻结果而配置。由于这些广告链接是根据读者的兴趣投其所好,所以吸引读者注意力的机遇就大得多。
  这一项业务以拍卖的方式出售。Google利用发行数字版图书的便当,有偿地给某些公司企业作宣传。这种方法必然导致发行书籍的主次排列受广告效益的支配,以最高地满足出资者的利益。
  让我们来考察一下这种合同的不平等因素。图书馆以保护文化遗产为使命,慷慨地提供数字化的原料和数字发行所需的精神内容,利润则属于私营企业。表面上看,Google免费提供服务,但这只是一个假象。因为,借助网上阅览带来的广告价值,它实际上在变相地出售这些不属于自己的书籍的使用权。此外,Google期待数字书阅览会给它各方面的服务带来更多的网民,总体上提高自己的广告价值。
  
  哪些书排在首位?
  
  这实际上是最大的问题。因为它涉及到Google搜寻器如何排列搜寻结果的主次,恰如铁屑受磁石吸引一样,受优待的总是那些已经被人熟知或已经有读者群的书目,而且这个趋势会日益强化。
  主次排列的建立遵循一定的计算规则,用大众化的语言来说,这是一个对搜寻结果作页面排列的自动化操作。它建立在什么原则之上?这是一个技术机密,就像可口可乐公司不对外公开它的基本生产原料的配制一样。但是人们知道,Google的排列原则主要(当然还有其他因素)根据每一页包含的链接数量;不仅如此,这个数值还要根据每一链接自身包含的其他链接算平均值——这样的连环链接可达数十亿之多。另外似乎还有一个参照系数,就是搜寻的词句在一页里被提到的次数。
  最近一位美国教授朋友告诉我,如果他要找一句克莱特关于巴赫的评语,只要在Google搜寻器里打进“Colette Bach”,就可以很快找到他需要的引言。没有问题,这是一个很便利的咨询站。但是他接着补充说:“假如我要更泛泛地提出一个较复杂的问题,比如民主是否促进平等,那么我就要浏览成千上万页的搜寻结果。”在此,理解主次排列的标准就变得至关重要。既然Google根据阅读的次数和链接的寡众来排列搜寻结果,那么搜寻器最熟悉的网页也就更容易被其他网民的链接寻取(依照“越是有钱就越容易借到钱”的常规)。可以肯定,本来就占优势的网页会越来越占优势。长此以往,在Google描绘的蓝图里,互联网的重心必然日趋缩小在一个极有限的区域。
  这么一锅大杂烩将不断地在Google巨大的世界锅炉里提炼。这种“Google舞会”(这个称呼挺雅致)至少一个月举办一次。它要求越来越复杂的计算,所以也需要越来越大的投资。
  这种方法虽然比简单地记录阅读次数(否则就给舞弊行为洞开方便之门)复杂些,但是人们不难看出,它实际上还是一种使成功者更成功的方法。受害的当然是创新的、少数的或奇特的作品。总的趋势是缩减搜寻的深度,销毁持久性,这显然是对文化很不利的。
  要保护那些我们明知在市场竞争中受威胁的自由权。比如:“发行量小”的作家的自由权,小本经营的出版商的自由权,少数民族的语言和文化的自由权等等。
  也要谨防潜在的查封的可能。从现在起,Google就开始酝酿如何根据某某使用条例,在搜寻结果中取缔它认为不符合资格的网站的问题:Google可以拥有这类网站的信息,但是在搜寻器上却无法找到。
  
  图像模式、文本模式、元数据
  
  谈论数字化的问题,图像模式和文本模式之间的取舍和选择值得慎重考虑。图像模式是对原文一成不变的扫描复制;文本模式在目前尚需要重新作电脑输入,或者在严格的质量检验的条件下,对扫描文本作自动电脑处理。文本模式的费用通常要比图像模式的费用高八到十倍。
  两种模式的选择应以原文的性质而定。比如报纸,显然用图像模式扫描复制更有意义。因为版页、文章的位置、标题、版面的大小等因素和一篇文章的内容几乎同样重要,它们有助于正确认识一篇文章的实际意义。
  关于这个问题,似乎Google采用一种简化的文本模式,既不能下载,也不能加注,实际上Google不排除两种模式混合使用的可能。
  所谓元数据,就是那些不属于原版形式,在互联网版上补充加入的比如标题、作者、参考资料等。就是建立一个目录所需的内容。人所共知,一本书若在书库里放错了位,那么就等于不存在了(这就是那些让我们的读者听了就头痛的“缺失”);在网上,侥幸也是同样不存在的。给每一个资料补充一个内在的标记结构,使其各种用途扩展到最大的限度,例如读者加入自己的评语,各种注释、引文、参照……
  元数据是在把一个文件复制成电子版本时添加的,它们提供和文件有关的各种不同性质的信息。有些用来描述文件,类似传统书目中的条目,包含题目、作者姓名、各种参考数据。这些数据参照图书馆界长期以来建立的分门归类体系(最著名的属杜威分类系统)或者是某些关键词系列。另一类数据用来管理文件,比如和法律有关的信息,以便更好地管理作者、译者和出版者的权利。还有一类数据和文件的内部结构有关。最后一类数据记录有关电子资料的技术特性。
  假设“图像”和“文本”两种模式之间的差距逐渐缩小(这绝不是什么想入非非),耗资较少的图像模式不久将会得到新的技术突破。所谓光学字符识别的技术(英文缩写OCR)就是对扫描文件作自动分析,并建立索引和查找工具,以便在上下文关联中确认主题词或关键词。
  必须时刻注意协调好“简单性”和“复杂性”之间的平衡,在日常生活中,我并不想知道我的电脑内部是怎样运行的,这和我想不到打开汽车机盖看个究竟是一个道理:只要能启动就行。
  (摘自《当Google向欧洲挑战的时候》,北京图书馆出版社2006年5月版,定价:16.00元)
  

[1]