首页 -> 2006年第8期
语文词汇定量研究:现状和可资利用的成果
作者:赖华强
自1898年德国语言学家F.W.凯丁出版第一部根据统计材料编成的《德语频率词典》以来,各国语言学家、教育家都十分重视编写频率词典,从频率的高低来确定常用词,推进词汇的教学,提高学习效率。如美国的教育家兼心理学家E.L.桑代克对英语词汇的频率做了大量的统计工作,在此基础上编写了《教师两万词词书》和《教师三万词词书》。后来人们又在此基础上将常用词分为最低限度词汇、常用词汇、次常用词汇、一般常用词汇等几个等级,供教学选用,把词汇教学纳入科学的轨道。
汉语常用字词的研究,要说早则早矣。
周宣王时的太史籀,为了教学童,编《史籀篇》。秦朝李斯、赵高和胡毋敬又各自取材于《史籀篇》,改籀文为秦篆,分别编了《仓颉篇》《爰历篇》《博学篇》。汉代的民间先生又将这三部字书合并,题名为“仓颉篇”。此后汉武帝时司马相如编《凡将篇》,元帝时史游编《急就篇》,成帝时李长编《元尚篇》。它们开我国集中识字学词教学之先河。到后来大量涌现的诸如《千字文》《三字经》《百家姓》等蒙童韵语识字课本,其编写方法无不是脱胎于前者。《千字文》选择了1000个字,都是古书上常用的,基本上没有生僻字,只有个别字重复。《三字经》是1140字,用的都是极常见的字,讲的都是极通俗浅显的名物事理,用字有一定的重复。《百家姓》是568字,字数少,所列的字大多是儿童很容易理解的普通常见的姓,有个别复姓中的用字重复。三本书合起来,总字数是2708个,除去重复的字不算,单字是1426个。从字种比例看,“三、百、千”有73.67%的字是现代汉语常用字,有10.61%是现代汉语次常用字,两项合起来,有84.27%的字在我们常说的3500个常用字范围内。单从字种比例看,“三、百、千”即使在今天仍然不失为优秀的识字课本。如果把这些蒙童韵语读物看成我国古代语文教育工作者在母语字词教学方面的数量范围追求的有益尝试的话,我国母语词汇教学量化实践的历史可谓长矣。
当然,科学意义的词汇目标量化工作是要建立在词频统计工作基础上的。
我国第一部汉语频率字典是陈鹤琴在1928年编成的《语体文应用字汇》,他分析了554478个词,得出4261个常用字。但这还不是严格意义上的频率词典。
对汉语词汇频率的统计研究,最早应算《普通话三千常用词表》。该词表为郑林曦先生所编,初稿本出版于1959年,收词3624个,增订本出版于1987年,收词3996个。这是我国第一本按汉语语法分词类排列的常用词表,原本主要是供学习普通话、编写普通话课本、读物时参考的。从学习者、使用者的反应来看,该词表确实收到了较好的社会效果。不过,该词表无论是初稿本还是增订本,都没有采取统计大量材料的方法,而采取选择和统计、检验相结合的方法。据编者介绍,词表编成后,曾利用各种性质的书报文章约130000多字、50000多词进行常用性检验,结果证明,初稿本的词汇出现频率平均约为80%,增订本的词汇出现频率提高到87%。
另一项具有手工性质的劳动,是1980年前娄警予、马世一等教师,对当时试行的十册统编教材中的中学生应该理解掌握的常用词,作了比较详尽的调查和统计,一共理出6494个常用词。他们认为这远远不够,因此,又按照《现代汉语词典》的顺序,挑出他们认为中学生应该学习掌握的词汇6113个。此外,他们认为《现代汉语小词典》所选的3000条成语,绝大多数都是中学生应该学习和掌握的,而那套课本只出现了814个。据此,他们提出,中学语文应该教给学生的词汇,大约应是15000条左右(其中成语约3000条,其他词语约12000条)。他们因此按音序列成了《中学生常用词汇表》,并提出“到底是多少,又应该包括哪些词汇”,需要“大家共同来研究”,他们只是“向全国热心于语文教学改革的同志们提供一个蓝本”。
这是目前我们所知的新中国第一项直接面向学校教育的汉语词汇目标量化研究。这项研究肯定没有借助计算机,它的选词标准也不是建立在词频统计基础上的,因而就某一具体词语的当选与否来讲,其科学性肯定是差点儿。这项成果也没有在全国推广。但这项研究的巨大意义就在于,它是新中国语文教育史上第一项明确关于汉语词汇教学量化标准问题的研究。
我国开展大规模的不同用途的汉语词频统计工作,是在计算机技术得到广泛应用以后。这些成果中比较具有全局意义的直接面向学校和用作其他需要的各有数项,下面略作介绍:
(一)直接面向学校的
1.北京师范大学现代教育技术研究所部分研究人员同中文系部分汉语教师合作,利用两年多的时间,对全国统一使用的1983~1984年度的中小学语文教材(共24册)作了大规模的词频统计与分析。共输入104万字,约生成4万个词条。然后再利用计算机把词频值和方差值(即词在各种文体中的覆盖率)都达到某一界限的词全部选出来,确定为常用词。这项成果于1985年7月通过国家鉴定,并形成《现代汉语词表》《三千常用词表》《八千常用词表》《一万常用词表》和《现代汉语构词字典》等具体成果。
这项研究的意义毋庸置疑,但是,它并没有提出中小学词语教学的量化标准,而且,词频统计的取材范围只局限于当时的一套统编教材,这个选材面太窄了,明显不足以证明所选词语的“常用性”,统计结果受该教材的编辑思想和选文标准的局限是自然的。
2.北京语言学院语言教学研究所从1979年11月开始至1985年7月止,历时5年零8个月,对4类(报刊政论、科普、生活口语、文学作品)语体179种180万字的语料进行统计,共得到词条31159个,其中出现频率在10次以上的常用词,只有8000个。这8000个词累计出现频率占全部语料总量的95%强,其余23159个词的累计出现频率仅占全部语料的5%弱。据此他们编成《现代汉语频率词典》。
这项成果还直接生成或影响了另外两项成果:一是国家对外汉语教学领导小组办公室汉语水平考试部,据此确立了《汉语水平词汇与汉字等级大纲》(1992)和《汉语水平等级标准》(1995)里的词汇量化标准8821个(亦说8822个)。一是国家语委据此编制了《普通话水平测试大纲(修订本)》(1994)“普通话(口语和书面语)常用词语”表一里的8454个常用词语。
这项成果对对外汉语教学产生了比较大的影响,直到现在它还是人们讨论对外汉语词汇教学问题的依据,但是这项成果对国内中小学语文教学并没有产生直接影响。
(二)用作其他需要的
1.北京航空航天大学等10个单位,从1981年到1986年,历时6年,前后有数百人,进行了一项据他们自己称是“世界上迄今为止规模最大的”汉语词频统计。这次词频统计选材3亿汉字,编码输出2000万汉字(含标点符号),统计出词条达7万之多,统计材料覆盖1919年至1982年的四个时期,涉及社会科学和自然科学的10类学科。该项研究1986年6月30日通过国家级鉴定,主要成果收集在刘源主编的《现代汉语常用词词频词典》里。
2.国家语委语用所现代汉语通用词课题组,在近2亿汉字语料的基础上,吸收国内外主要的词频统计成果,并运用新的抽样语料进行覆盖率检验,采集我国“社会生活各个方面、各行各业都通用”的现代汉语词汇。该项研究的首批成果《现代汉语通用词·基本集》已通过专家审定(1997),它收词6万多,其中一级词5191个,二级词8792个,共13893个。《现代汉语通用词·基本集》以外还有扩充集。扩充集以短语为主。
[2]