首页 -> 2008年第1期

我国第一个“法律语言语料库”的建设及其思考

作者:宋北平




  提要 由于国内外尚没有建成的法律语言语料库,我国第一个法律语言语料库建设中需要探讨、解决的问题无疑会有很多,其中建设目的、取料范围、取料原则、分析标注和检索设计是必须解决的主要问题。课题组关于这些问题的研究和思考,对以后法律语言语料库的建设应该有些借鉴。
  关键词 法律语料库 建设 思考
  
  语料库诞生的时候,不但革新了语言学研究的方法,甚至动摇了一些传统的语言学理论,如今已成为语言学研究必不可少的工具。然而,将语料库引入法律语言的研究,却是一个新的问题,现就以本人设计、研制的法律语言语料库(下称“本库”)为例,对建设中的有关问题做些探讨和思考。
  
  1.法律语言语料库建设缘起
  
  2006年1月,笔者就近年潜心研究的“中国法律语言规范化工程”,邀请了国家语委原常务副主任陈章太研究员,教育部语言司司长李宇明教授,北京大学陆俭明教授,《中国法学》总编陈桂明教授,司法部司法研究所所长董开军博士,中国政法大学法律语言研究中心主任王洁教授,北京政法职业学院章景孙院长、徐明江副院长等,召开了专家咨询会。与会专家对如何开展我国法律语言规范化研究的问题,发表了许多精辟的咨询意见。陆俭明教授提出,如果想认真研究好法律语言,就必须首先建立一个法律语料库;如果没有法律语料库,法律语言规范化的研究很难开展起来。陈章太研究员进一步说,法律语料库不仅是法律语言研究必不可少的工具,也是法律语言规范化研究必不可少的利器,一定要在规范化研究展开之前完成建设工作。他们的意见获得了出席会议的法学专家认同。董开军博士说,虽然自己对语料库了解不多,但法律语料库对法律语言研究的作用无疑是很大的,应该率先研究。王洁教授则说,自己最大的遗憾是没能建成法律语料库,最大的盼望也是能有一个法律语料库。
  咨询会后,笔者即牵头成立了“法律语言语料库”科研组,笔者申报的我国第一个“法律语言规范化研究”课题获得司法部批准,法律语言语料库的研究即被纳入该课题之中。研制过程中,科研组所遇到的困难,凡没有建设过语料库,尤其是在没有科研经费的情况下建设过语料库的人,是难以想象出来的。如果没有获得如下几个方面的帮助,本库不大可能完成,至少不会在今天完成建设工作。
  
  第一,语言学家、语料库专家的帮助。笔者在设计本库的过程中,除了向陆俭明、陈章太、李宇明、崔希亮专家请教外,还特别专程请教了教育部语用所的靳光瑾研究员、谢俊英副研究员以及年轻的计算语言研究者肖航先生,北京语言大学张普教授和杨尔弘教授。尤其是,中国中医科学院《中医药一体化语言系统》的主持人伊爱宁女士向笔者详细演示、介绍了该系统的建设过程和技术来源。
  
  第二,科研人才的帮助。建设法律语料库,除了需要法学人才和语言学人才以外,必不可少的还有计算机程序设计人才,而科研组经费的短缺决定了不可能外聘。对此,北大英华科技公司给予了无偿的支持,没有他们强大的“语言~软件”科研能力,笔者几乎没有能力解决本库的计算机程序上的困难。
  
  第三,语料收集、标注、录入的帮助。这是所有语料库建设工作量最大的部分。本库按照设计要求,从国内最完善的法律电子数据库——北大法宝中抽取了8亿多字的语料,北大英华公司还承担了其它部分的标注、录入工作。
  笔者经过近两年的艰苦努力,通过整合各方面的力量,本库的建设总算完成。
  2007年10月18日,法律语言规范化研究专家委员会在法律出版社召开了专家鉴定会,对本库进行了科学鉴定。专家委员会主任、中国行为法学会会长刘家琛大法官,专家委员会副主任、最高检副部级专职检委委员戴玉忠教授,国家语委原副主任陈章太研究员,以及教育部社科司司长杨光副研究员。司法部司法鉴定管理局局长霍宪丹教授,北京政法职业学院副院长陈勇教授,社科院语言研究所董琨研究员,中央财经大学法学院院长郭锋教授,华东师范大学应用语言所副所长胡范铸教授,北大英华科技公司总经理乔聪启教授,法律出版社社长黄闽编审和副总编辑吕山等专家讨论后认为:第一个法律语言语料库的建设有助于解决我国目前法律语言研究受研究工具局限的问题,对法律语言应用、研究及规范化有重要意义,值得推广利用。
  
  2.法律语言语料库的设计与建设
  
  法律语料库是表述法律意义的语言材料的集合。在建设过程遇到的大大小小的问题,但至少如下五个问题是无法回避而必须解决的。
  
  2.1 语料库的建设目的
  就笔者所知,几乎所有的语料库都是为了语言本身的研究,或语言的学习而建设的。若有例外的话应该是《中医药一体化语言系统》。它是为医药业服务的医药语言电子数据库,但并不是语料库,实际上是经过规范化了医药语言检索系统。从语言学的角度看,法律语言是“领域语言”,而且可以说是最有现实意义的领域语言,因而非常值得研究。所以,法律语料库当然能以研究这个“领域语言”为目的而建设。不过,这种研究仍然是语言学上的研究,不需要或者几乎不需要法界专家的参与,更不需要法界人士作为主体研究者,因为其最终要解决的仍然是语言本身的问题,与法律没有多大的关系。
  由于法律是通过语言展现的,法律上的问题也就表现为语言上的问题,对法律的研究必须透过语言才能进行,因而,法律语料库的建设就能以直接为法律实践服务作为目的,包括法律的制定,法律的施行,法律的研究,法学的研究等等。当然,这些研究都离不开语言,这种直接为法律实践服务的语料库,同样也能为语言学服务,尤其是领域语言学。
  然而,笔者坚定不移地认为,无论是法律语言学还是法律语言研究,如果不是为法律实践服务,解决法律实践问题,就不是真正的法律语言学,就不是真正的法律语言研究!鉴于此,本库的建设目的,首先是为法律实践服务,其次是为法学研究服务,附带地为语言学研究服务。
  
  2.2 语料库的取料范围
  语料库的取样范围,直接决定了语料库建设目的能否实现。法律语料库的取料范围似乎非常容易划定:只取法律语言,撇开非法律语言。问题恰恰在于,究竟什么是法律语言!我国学界关于法律语言的定义,笔者曾经梳理过,大概有十余种,比较流行的有八种。每一种无疑都经过作者深思熟虑,再几经学界洗涤,应该都是真知灼见了,但共同之处都是从语言学的角度所做的界定,因而划分法律语言的“是”与“非”之间没有清晰的边界,不太可能据以划出本库的取料范围。
  例如,流行概念之一:“法律语言是民族共同语在法律事务领域运用的一种功能变体”。接着还用“语域(register)”和“变体(variety)”对该定义做出说明。撇开是否只有民族共同语才有法律语言不论,民族共同语的任何一部分都可能在法律事务领域中被运用,因而就不可能区分哪些民族共同语是,哪些

[2] [3]