唐代以来汉语文学作品中的字频演变刘宇凡I,郭金忠2,陈清华$(1•石家庄经济学院人文社科学院,石家庄,050031;2.北京师范大学管理学院,北京,100086)摘要:研究历史上各个时期中文文学作品中的字频分布具有重要意义,可以帮助我们更加深入研究汉语言的历史演变,但这在以前的语言统计工作中是缺乏的。本文对唐代以来的文学作品按不同时期进行分类建立语料库,字频分析的结果表明自唐代以来人们使用汉字的习惯处于不断变化zm,时期越相近,汉字的使用习惯就更具一•致性。从分布上看,不同时期的字频都可以用一个指数截断的帚律函数进行很好的拟合,随着历史的发展,帚律性质不断衰减而指数性质不断增强。关键词:汉语文学作品;字频分布;指数截断的屣律中图分类号:H087,TP391文献标识码:ATheEvolutionofCharacterUsingFrequencyinChineseLiteraturesincetheTangDynastyLIUYufan1,GUOJinzhong2,CHENQinghua2(1・SchoolofHumanitiesandSocialSciences,ShijiazhuangUniversityofEconomics,Shijiazhuang,050031;2.SchoolofManagement,BeijingNormalUniversity,Beijing,I00875)Abstract:ItismeaningfultostudycharacterfrequencydistributionamongChineseliteraturesfromdifferentperiods,becauseitcouldhelpustoknowmoreabouthowChineselanguageevolvesovertime.ThispaperhaspresentedthatthecharacterfrequencydistributionhasbeenchangingsincelangDynasty,bycountingthecharacterfrequenciesof5classicalaswellasmodemChineseliteratures.Itisclearthatthetwocharacterfrequencydistributionsaremoresimilarwhenthetimesperiodsthattheycamefromarecloser,andallthedistributionscouldbewellfittedbyexponentialpowerlawfunctions.Andtheexponentialpropertyisincreasingwhilethepowerlawfeatureisdecreasingovertime.收稿日期:2010-定稿日期:基金项目:北京师范大学青年教师科研基金作者简介:刘宇凡(19??一),女,讲师,主要研究方向为自然语言处理;郭金忠(1985-),男,硕士研究生,主要研究方向为复杂性理论及其应用;陈清华(1976-),男,讲师,主要研究方向为复杂性理论及其应用,qinghuachen@bnu.edu.cnKeywords:Chineseliterature;characterfrequencydistribution;exponentialtruncatedpowerlaw1引言人们很早就发现,文学作品或者文集中的基本组成也元或元素并不是等概率出现的,少数的字和词使丿IJ非常频繁,而只出现一次的字和词非常多。这种特定的统计分布形式具有非常强的普适性,存在于不同地区不同时间多种语言Z中。这种统计研究除了在理论上讨论语言的共性外,其结果也具有实际应用价值,例如它可以应用于语言信息的计算机化处理,包括文本的压缩、输入法的编码等,以及H前比较流行的文本口动分析和处理,还可以用于语言学习材料的组织和其他方面,如小学课木中常川字词的选取等。语言的统计研究可以追溯到很久以前,古卬度语法学家在研究《吠陀》时,就进行过单词和音节数目的统计。1898年德国学者Kaeding编制了世界上第一部频率词典《德语频率词典》。1935年和1949年哈佛大学语言学家Zipf先后出版了2本著作山刀,提出了著名的Zipf规律(或齐夫定律)。他在总结前人统计发现的基础上,指出在文集中的词出现不是等概率的,他们满足这样的形式:〃(厂)=0",其中P(厂)为排序在第厂位置的词出现的频率,0为Zipf指数,C为常数。后续一些研究发现西班牙语、法语、爱尔兰语⑶、希腊语⑷、卬度语⑸、土耳其语⑹均满足这种分布特征,其至现在己经灭绝的语言也是如此⑺。目前,随着计算机技术的发展,对语料库的统计工作变得非常简单,这方而的研究工作变得更容易进行。但对于汉字来说,这种基本元素的统计非常特殊。与学者们经常讨论的拼音语言不同,汉语具有两个基本单元,一个是符号上的基木单元-------------------------字(character或ideogram),另一个是意义上的基本单元——词(word)o这两方而的统计研究工作历史上都有过一些,例如,1975J976年,北京新华印刷厂等19个单位发动了1500名中学生对出版物中的2162万字的材料进行统计,编成《汉字频率表》;...