首页 -> 2008年第1期
我国第一个“法律语言语料库”的建设及其思考
作者:宋北平
不是法律语言。至于“功能变体”,更无助于二者的区分。而定义中的英文,虽然可能是我们的汉语词汇远远贫瘠于英语所致,但对具体区分汉语中法律语言的“是”或“非”仍然是“风马牛”。
故此,我们不得不采用从法律的角度对法律语言做出的新定义:法律语言是表达了法律上有拘束力的符号系统。是否表达法律上的拘束力是区别法律语言和非法律语言的唯一标准。且这个标准不仅适用于汉语,也同样适用于其他语言;既适用于民族共同语,也适用于少数民族语言。它可以区分任何场合的法律语言,无论是书面语还是口头语。
例如,当事人所做的书面陈述,如果他递交给了法庭,是法律语言,因为这个陈述的内容会产生法律意义;如果他没有递交给法庭,就不是法律语言,因为这个陈述的内容不会产生法律意义。该当事人如果不是书面而是在法庭口头陈述,其中被法庭记录在案且经其本人签名认可后,是法律语言,因为它会产生法律意义;其中没有被法庭记录在案的,不是法律语言,因为它不会产生法律意义。又如,律师为当事人双方起草的合同书,几经修改后双方均无异议。如果双方都签名了,表达该合同书的即是法律语言,因为它对双方均有约束力;如果有一方签名而另一方未签名,表达该合同书的便不是法律语言,因为它对任何一方都没有约束力。法律语言学者为了研究法律语言,经法庭许可所做的实况录音,同样不是法律语言,因为它不会产生法律意义。至于界定了法律语言之后,如何从法律的角度进行研究,是另一个更值得探讨的问题。
以此为标准,本语料库的取料范围如下:
1.全国人大制定的法律;
2.我国对外签订的国际条约;
3.国务院制定的行政法规;
4.中央各部委的行政规章;
5.司法解释及地方各级法院的“司法性”解释;
6.地方法规;
7.司法文书;
8.执法文件;
9.产生过法律意义的各种笔录;
10.生效的合同。
为了严格区分非法律语言,如下两点必须注意:
第一,口语必须是转录后仍然有法律意义,即得到相关机关、人员认可其在法律上的作用,才能作为语料收集。
第二,具有普遍约束力的法律、法规、部门规章、司法解释等,已废止、失效的,仍作为语料收入。
2.3 语料库的取料原则
对本语料库的建设,笔者于06年4月在法律出版社主持召开了“中国法律语言规范化工程科研会议”,科研人员来自法学界、语言学界和法律语言学界。会上发生的第一个争论,是讨论到本库的取料原则时,有语言学界的代表坚决认为,本库和其它语料库一样,取料必须全面贯彻均衡性,没有均衡性就没有科学性,与笔者主张的第一是重点性,第二是均衡性原则的观点发生了激烈的冲突。
面对海量语料,任何语料库在建设时必须确定取样原则,否则,任何计算机也不可能存储全部相关的语料。语料库取样的均衡性(有人称“均匀性”)原则,即要求对不同类的语料要均衡收集,才能全面代表尚未抽取的部分。这是中外语料库取样时必须遵循的“基本原则”。然而,这个基本原则对法律语料库的而言,却并不“基本”。因为,无论是与通用语言比较,还是其他领域语言比较,法律语言独具的特征有“源”和“流”的差别。这种“源”“流”之别,实质上是法律效力的层级差别,即效力层级低的法律(如无特别说明,本文中的“法律”均使用广义)必须服从效力层级高的法律的语言表述。例如。如果社会生活某个方面的问题在法律尚未做出规定的情况下,审判中又不得不对这个问题做出判决,就只能以司法解释做出相应的规定。一旦这方面的法律颁布实施。如果已经公布的司法解释与其中的表述不一致,司法解释就应该做出相应的修改,否则就不能适用,以免与法律冲突。可见,法律语言的“源”是全国人大制定的法律,从这个“源”逐渐地流布开来,流的末梢即是未必经司法机构参与,但因为有法律的规定,对“人”仍然有约束力的生效“合同”之类的语言。
由于在法律语言中,不同种类之间存在“服从”与“被服从”的关系,效力范围有大小的分别——最大的效力范围不仅在全国,甚至还会逸出国界,如与外国签订的条约与合同;最小的效力范围仅及于某个自然人或法人或组织。这个根本性特征,决定了法律语言取料的基本原则是“重点原则”而非“均衡”原则,即必须重点收集在全国范围内有效的语料文本。鉴于重点语料——全国有效的语料文本仅仅是法律(狭义)、行政法规、部委规章、司法解释这四种,并非海量而是有限,为了确保重点语料的全面性,因而必须全部收集(正是因为重点语料应该全部收集,而不是其它语料库的取样方法,所以本文称“取料”而非“取样”)。其它局部性和单个性的语料文本,则应该适用取料的均衡性原则。
以“重点”原则为主,收集所有全国有效的法律,既保证了语料的充分性,又解决了“均衡”原则难以解决的代表性问题。如果不采取“重点”原则,必然发生“充分性”和“代表性”这两个严重影响本库建设目的实现的致命问题。
其一,在全国范围内有效的法律语料,是法律语料中最核心的部分,也是最典型的部分。适用均衡性原则时,只可能有很少一部分被抽取,大部分不得不被舍弃。如此,本库要求的法律语料的充分性就不可能实现。语料没有充分性的语料库,必然不存在科学性、可信性。
其二,均衡取样不仅不能反映文件的全貌,而且必须时刻注意样板的代表性。在全国有效的法律之语料,首先,不同法律效力级别的语料之间的代表性无法解决。显然不能认为效力级别低的能够代表效力级别高的法律语料,同样也不能认为法律效力高的可以代表效力级别低的语料,那样的结果,只有一部宪法的语料了。其次,同样效力级别的语料之间的代表性也无法解决。例如,同样是各部委的规章,如何认定哪个或哪几个部委的规章能代表其它部委的语料;同一个部委的规章,如何认定哪个或哪几个法律文件能代表其它文件的语料。
2.4 语料库的分析标注
前文提及的06年科研会议上关于本语料库建设的另一个激烈争论,是分析标注。来自语言学界的代表坚持认为,本语料库必须或应该像其它语料库一样进行分析、标注,做深化加工。而笔者认为,通常语料库的那些切分、标注等加工手段,在本语料库中没有必要也不可能全部采用。因为那些切分和标注,是为了研究语言本身或语言学而设置的,本库不是为了研究语言学,即使研究语言,也是最终为了研究法律而进行的。也就是说,为了研究语言学而进行的切分、标注,对研究法律没有太大意义,因此,本库只拟采用其中适用法律语言研究的部分。
笔者虽然认为,切分在汉语的法律语料库的加工中未必需要,但标注还是有意义的。问题是,究竟在语料上标注什么内容才符合法律研究的需要,目前尚在黑夜中摸索,茫无头绪。例如,如果标注语料