基于统计分析的中国风歌曲词汇研究

基于统计分析的“中国风”歌曲词汇研究摘要:通过计算106个歌词文本和《唐诗三百首》《宋词三百首》之间的余弦相似度,可以发现“中国风”歌词更接近宋词。再结合卡方检验、改进的信息增益方法选取特征词,梳理“中国风”歌词承续自古诗词,且区别于5425首一般流行歌曲的词汇类别与风格。最后进行K-最近邻分类实验,较髙的“古典词”比率和较低的虚词比率能大体上将“中国风”歌词与一般流行歌词分开,但仍存在例外情况。由此揭示出“中国风”歌词的基本面貌与定位,为引导“中国风”歌曲发展提供实证支持。关键词:“中国风”歌词;唐诗宋词;余弦相似性;特征词选择;K-近邻:0212.1/J614.9文献标志码:A:1672-0539(2018)05-0068-08一、引言“中国风”是21世纪初兴起的一种音乐体式。自2003年由方文山作词、台湾歌手周杰伦演唱的《东风破》获得巨大成功起,华语流行乐坛刮起了声势浩大的'‘中国风”。关于'‘中国风”概念的界定说法颇多,目前的主流观点由广东音乐人黄---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---晓亮提出,指'‘三古三新(古诗文、古文化、古旋律、新唱法、新编曲、新概念)”相结合的中国特色乐种[1]。具体而言,它结合中国传统民间乐器与现代乐器,在曲调上以民族宫调式为主,最重要的是,其歌词以传统诗词为辞藻风格。在以往的研究中,研究者们注意到'‘中国风”歌曲词汇在多方面的特色。例如,杨杰[2]、张新标[3]从词语选用、修辞技巧、意境营造、情感表露等方面,探寻了唐诗宋词和现代歌词的源流关系。刘芳智[413-10等则对某一“中国风"歌词作者的作品进行了题材分类、风格评析,总的来看,现阶段的研究主要是用传统文学赏析的办法,解读个别歌曲中的具体字句,尚未运用统计方法展现“中国风”歌词的宏观面貌。而且,研究对象或是笼统的'‘中国风”歌曲,或是某位词作者的歌词,缺失不同作品之间的比较研究。在前人的基础上,我们参考"计量风格学”中的统计技术,立足于文本词汇,对“中国风”歌词进行全面的计量分析,比较其与唐宋诗词、一般流行歌曲的异同。计量风格学是以定量的手段,利用文本中可以统计的语言特征项来探索文本风格的一门学科[5],具体包括“余弦相似性”等计算文本相似度的方法、“信息增益”等挖掘某一类别文本特征词的方法,以及基于监督学习的文本分类算法等。在古诗词语料方面,我们以---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---清代蕎塘退士《唐诗三百首》[6]选本(实收诗320首)和朱孝臧《宋词三百首》[7](第三版选本,实收词285首)为唐诗宋词的代表;在“中国风”歌曲的语料采集上,我们选取了2003年到2017年2月发行的来自62位作者的106首具有古典意味的歌曲歌词;在一般流行歌曲方面,由于目前还没有比较成熟、权威的中文歌词语料库,歌词语料从网络广泛搜集得到,在排除其中属于106首“中国风”歌曲的语料后,共得5425首歌的歌词。二、文本预处理文本预处理主要包括三项主要操作,一是停用词(StopWords)的选取,二是利用分词系统,三是去除标点。在计算文本相似度、选取特征词任务中,三项均需进行;在文本分类任务中,则只进行第二、三项操作。(一)停用词的选取停用词指经常出现在文本中,却不承载较多信息量的词语,它们对文本主题没有太多贡献度,最好的办法就是在处理文本的过程中删除它。我们主要把“有”“无”“来”等常用的动词,"上”"下”"中”等方位名词,"人”"天”等常见的名词,"和”"及"等连词,"的”"了”等助词,"不”等---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---副词选为歌词文本、《唐诗三百首》文本和《宋词三百首》文本的停用词。需说明的是,这些词被停用后,只是不再以词的身份单独出现,但仍可以构词语素的身份出现,例如“无情”“佳人”。这样的合成词对于文本内容仍具一定意义。(二)利用NLPIR/ICTCLAS系统分词并去除标点分词作为中文信息处理基础工作,是后续环节的前提。一方面,唐宋诗词正处于中古汉语到近古汉语的过渡时期,汉语主要的词汇形式逐渐从单音节过渡到双音...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?