首页 -> 2007年第3期

浅析数字化信息内容的编辑加工

作者:王 勤




  当今,信息已成为人们日常生活中使用频率最高的词汇,人们对信息的需求已不再满足于简单的查询,在信息消费需求上出现了多样化、高端化。这对数字出版和数字传播提出了新的更高的要求。本文拟就数字化信息内容的特点与数字化信息内容编辑加工中的重点工艺环节和应遵循的基本原则作一浅析。
  
  一、数字化信息内容的定义及特点
  
  数字化信息内容是指人类在社会实践过程中,按照结构化、组织化和关联性的编辑加工原则,经过系统收集、识别记录、规范化整理和数字化集成等工序,将反映事物运动状态和方式的知识、事实和数据等基本信息变成的可被认知、理解、传递和检索,并以文本、数字、图像、动画、音频和视频等多种媒体形式呈现出来的一类非物质要素的内容集合。
  这是一个基于数据库编辑的一般性描述定义。在电子与网络等在线或离线型数据库出版过程中,我们更强调在一切经济和社会活动领域中所产生的、具有内在知识体系结构的、有序的、对某一产业或领域的信息需求具有强大支撑作用的有效信息资源的集合,它具有信息间关联丰富,知识的拓展性与延展性强,素材的富集度、媒体的丰裕度和使用价值高,应用前景好等特点。不仅如此,这种资源集合还要具有足够的存储量,并形成一定的规模。
  要达到上述要求,我们就要对所集成的信息做功(即广义的信息编辑加工)。只有对用户需求进行理性分析并从建立数据结构和数据模型的专业角度出发,对信息内容进行系统的深度编辑加工,才能使信息内容具有上述各项基本特征,成为可再生的有效信息资源。
  对所集成的信息做功是每个传统出版单位在数字化转型期间要做的一件大事。传统出版单位必须具有一定规模的有效数字信息资源集合和对它们进行深度编辑加工的能力,才能构成自身的数字化生产能力和生存能力,进而不断适应数字化出版和出版数字化的需要。
  为此,从现在起,传统出版单位就要高度关注并做好数字化资源的基础性建设工作,做好信息资源的收集、整理和深度编辑加工工作。
  
  二、数字化信息内容编辑的重点工艺环节及应遵循的基本原则
  
  按信息资源集合建设的基本程序,我们一般将原始信息的编辑加工分为信息源分析、制定采集策略、分类、识别、标引、关联、组织、存储、传递、积累、维护等基本工艺环节。信息只有经过这些环节的系统加工,才可能成为可重复利用的有效资源。在编辑加工过程中做的有用功越多,开发出的信息资源的价值就越高,增值的空间就越大。这里主要介绍信息源分析、确定采集对象、制定采集策略、信息识别、信息过滤、信息分类以及信息标引等重点工艺环节及这些环节应遵循的基本原则。
  1.信息源分析
  对信息源的分析和评估是一切信息内容加工的基础性工作。如果采集的信息源质量很低,就会给后期编辑加工带来很大难度,有时甚至造成无法挽回的损失。为此,我们首先要做信息源的分析和评估工作,为资源库的建设提供根本保障。
  (1)信息源的分类
  信息源一般指信息资源的出处。根据信息的产生和传播顺序,一般将信息源分成初始源、次生源和再生源三种类型。
  初始源是人类在政治、经济、军事、文化和社会生活各领域的活动中产生和积累的原始信息和原始数据,如国家年度统计信息、各地原生态性的信息、世界各地重大事件的现场信息、科研成果的一手信息、生物资源信息,等等。这些信息都具有本源性,是信息处理非常珍贵的资源。
  次生源是现实社会中各种传媒机构对初始信息编辑加工后发布的信息,如通讯社、报社、杂志社、出版社、互联网出版机构、无线信息服务机构等所采集、发布、传播的信息。它们所提供的信息有些来自初始源,但更多的来自再生源。由于编辑加工人员对信息处理的原则因人而异,许多次生源信息带有较明显的采编人员的主观因素,因此,次生源信息的原生性、准确性和客观性都会弱一些。
  再生源主要是指人类社会历代传承、积累和传播下来的精神文化遗产和社会活动成果的结晶。这些资源虽经过后期的编辑加工,加入了许多整理者的主观因素,但经过长期的时间考验,去伪存真后已积淀为内涵极其深厚的文化资源,具有极高的文化价值,如各类文化史籍、文献、民间艺术、重大科学考古发现、历代文化遗存、大型工具书,等等。
  (2)信息源评估的几个指标
  无论是哪一类信息资源,我们在采集前都要通过专家对其可靠性、准确性、权威性、时效性、可追溯性等进行系统的考察,以进一步确定其潜在的可利用性。
  可靠性对不同的知识主题,信息源的可靠性判断标准和要求也不一样。初始源数据的可靠性最强。次生源数据由于经过人工编辑整理和加工,可靠性差些,要慎重对待,要在通过多种途径对它们进行校验后才能使用。再生源信息由于是长期积淀下来的,使用时则要对源中数据的出处和引用的版本倍加注意,对考古和科研类的内容主题还要注意引用最新成果。例如:官方统计数据应采自政府职能部门通过正规渠道公布的正式数据。企业数据则应采自企业通过正规渠道公布的正式数据。而一般媒体摘要性的新闻报道是不宜引用的。
  准确性由于信息源中的信息和数据的质量参差不齐,因此,一旦确定了采集的信息源后,还要对信息源中相关信息和数据的准确性加以判断,未经校验的信息和数据可能存在不准确问题,要经过复合的类比校验无误后,才能引用。判断信息和数据准确性的一个重要指标是自恰性,即这些信息和数据在整个系统中要保持高度一致,要相互印证,不能张冠李戴,相互矛盾。
  权威性权威性是一个相对的概念,对基础性信息的评估十分重要。这时要重点考察信息源的产生地和发布渠道。如从非主流渠道获取的信息,其权威性就大打折扣。如各类政府公告、官方统计数据、国家标准、行业标准和国际主导企业标准,以及各类名词术语等需要高频引用的信息,一定要从比较权威的渠道获得。权威性要在综合考察信息源的可靠性和准确性的基础上,再根据信息发布者的资质来综合地加以判断。
  时效性许多信息资源,特别是具有时间属性的信息,都具有高度的时间敏感性,即要有及时性和适时性。因此,对此类信息,一是要注意跟踪与确认信息源,二是要实时地更新和维护数据。有些大型或超大型数据库投入巨大的人力物力建立起来,但往往由于不能很好地维护和更新,造成数据的时效性差,数据过时,失去了使用价值。
  可追溯性为确保信息的准确和有效,我们要求信息采集的链路是连通的,可连续的,在任一节点上都可以追根溯源。因此,在采集过程中要将采集路径完整地保留下来,使信息资源具有可维护性和可再生性。
  对信息源的分类评价指标还有很多,这里就不一一列举了。
  2.确定采集对象
  一旦明确信息源后,信息源中知识主题的深度、对主题覆盖的广度、可采集的数据总量等,就成为采集信息时需要考虑的指标。
  信息采集前最重要的工作之一,就是根据用户需求明确并细化采集对象。采集对象一般以知识主题为单位,主题越明确、内涵越小、外延越大、覆盖面越广、完整性越强、在知识体系中的对位关系越准确、结构性的关联越丰富,采集的准确性就越高,采集到的信息也就越有效。此外,采集到的信息内容可挖掘的层次越深,同一主题或同类主题的有效数据量越大,则采集的效率也越高。
  另一方面,也不是任何采集到的信息都可成为有效资源,非结构化、无组织、失效、失控、不真实、不准确、无来源或来源不明确的信息,在现代信息社会中不仅不构成有效资源,相反,它构成严重的信息污染并产生大量的信息垃圾。
  3.制定采集策略
  

[2]