首页 -> 2006年第8期

语文词汇定量研究:现状和可资利用的成果

作者:赖华强




  3.许嘉璐、傅永和主持,清华大学、北京大学、国家语委语用所等十多个单位联合攻关完成的国家社科研究九五规划重大项目“信息处理用现代汉语词汇研究”,得到一个包含158000个字词的工作初表,然后再将这个表中的每个词置于8亿字左右的语料中作词频统计,最后采用“定性+定量”的处理策略(即运用各类语言学规则并参照统计数据),形成这个课题的核心成果之一——《信息处理用现代汉语分词词表》。这个词表共收词92843个,其中一级常用词56606个,二级常用词36237个。
  这项成果除了给出到目前为止有统计学依据的最大现代汉语常用词表外,特别值得我们注意的有两点:一是该词表的词语分类。整个词表分成7大分库:普通词库、带字母词库、专名库、常用接续库(即语法学上的短语)、成语库、俗语库以及单字词库。每库词语又根据频度分为一级常用、二级常用。这些数据对于我们制定语文词汇教学量表有重要参考价值。二是该词表还采取了一个技术性措施,即强制要求该表必须涵盖《普通话常用三千词》及《汉语水平词汇与汉字等级大纲》给出的汉语常用8000词,仅仅淘汰了极少量过时的词。这使我们更加有理由重视汉语“八千常用词”,即上文所说“8821”或“8454”。
  以上三项成果,虽然都不是直接面向和服务于学校教育的,但它对于我们制定汉语词汇教学标准,考虑选词范围和选词量,是有重要参考价值的。
  
  参考文献:
  (1)倪宝元《语言学与语文教育》,上海教育出版社1995年。
  (2)徐梓、王雪梅《蒙学便读》,山西教育出版社1991年。
  (3)张志公《传统语文教育初探》,上海教育出版社1962年。
  (4)郑国民等《小学语文常用读物的字种与字量研究——“三、百、千”“四书”、古诗80首等六种读物的用字》,《语言文字应用》2003年第4期。
  (5)郑林曦《普通话三千常用词表》,文字改革出版社1987年。
  (6)张志公《语文教学研究——中学语文教学研究会会刊第一辑》,教育科学出版社1980年。
  (7)何克抗、李大魁《现代汉语三千常用词表》,北京师范大学出版社1987年。
  (8)吕必松《对外汉语教学概论(讲义)(续十)》,《世界汉语教学》1994年第4期。
  (9)北京语言学院语言教学研究室《现代汉语频率词典》,北京语言学院出版社1986年。
  (10)刘照雄《普通话水平测试大纲(修订本)》,吉林人民出版社1994年。
  (11)刘源《现代汉语常用词词频词典》,宇航出版社1990年。
  (12)国家语委语用所《现代汉语通用词》课题组(执笔)厉兵《〈现代汉语通用词〉选词原则》,《语言文字应用》1998年第2期。
  (13)孙茂松等《信息处理用现代汉语分词词表》,《语言文字应用》2001年第4期。
  

[1]