情感语料库构建和分析

大连外国语学院学士学位论文中文题目:情感语料库的构建和分析英文题目:ConstructionandAnalysisofEmotionalCorpus二级学院:俄语系学科、专业:阿拉伯语专业研究生:徐慧指导教师:曾磊副教授2011年11月情感语料库的构建和分析*徐琳宏,林鸿飞(大连理工大学计算机科学与工程系,大连116024)摘要:本文介绍了情感语料库构建方面的一些经验,讨论了在设计和建设情感语料库中的几个基本问题:制定标注规范、选择标注集、设计标注工具以及标注过程中的质量监控。目前已经标注完成近四万句,一百万字的语料。在完成这些已标注语料的基础上,进一步给出了语料库的情感分布,情感迁移规律等统计数据,分析了情感语料库的特点及应用。它的建成将为文本情感计算提供更加强大的资源支持。关键词:情感语料库;文本编码规范;一致性检查;情感迁移中图法分类号:TP391文献标识符:AConstructionandAnalysisofEmotionalCorpusXuLinhong,LinHongfei(DepartmentofComputerScienceandEngineering,DalianUniversityofTechnology,Dalian116024)Abstract:Thispaperintroducedsomeexperiencesonconstructingemotionalcorpus,anddiscussedseveralbasicquestionswhichincludedthetaggingcriterion,taggingset,taggingtoolsandqualitymonitoring.Therewereabout40000sentencesinthecorpus.Moreoverbasedonthese,statisticaldataaboutemotionaldistributionandrulesofemotionaltransferencewereavailable,andcharactersandapplicationsofcorpuswereanalyzed,soemotionalcorpusprovidesupportfortextaffectivecomputing.keywords:emotionalcorpus;TextCodingInitiative;consistencychecking;emotionaltransference1引言情感计算目前是人工智能领域的研究热点,它的主要目标是使计算机能识别人类的情感,也就是需要建立完善的情感识别模型。然而要使训练的模型准确,容错能力强,就必*基金资助:国家自然科学基金资助项目(编号:60373095,60673039)和国家863高科技计划资助项目(编号:2006AA01Z151)。作者简介:徐琳宏,女,硕士生,研究方向为文本分类和文本倾向性识别;林鸿飞,男,博导,教授,研究方向为文本过滤,文本挖掘和自然语言理解,hflin@dlut.edu.cn;须有大规模的情感语料支撑。在国外,语料库的研究很早就已经开始了,也建设完成了许多大规模的语料库,如Brown语料库等。汉语语料库的建设开始于20世纪80年代,现有的大规模语料有国家现代汉语语料库[1]、台湾中央研究院平衡语料库[2]、中港台汉语语料库[3]、北京大学和富士通公司共同制作的人民日报语料库[4]等。上述大规模语料库的建设在收集语料,制定标注规范和质量监控等方面积累了宝贵的经验。文本情感语料库的建设方面,目前已有的语料库包括Pang语料库[5],Whissell语料库[6],Berardinelli电影评论语料库[7],产品评论语料库[8]。汉语情感语料库标注方面的资源则较少,清华大学标注了部分旅游景点的描述的情感语料[9],用来辅助语音合成的,但是规模也较小。总之,在国内情感计算刚刚兴起,这方面还没有比较大规模、权威的汉语文本情感语料库。大部分语料库的建设分为语料的收集和预处理、标注规范的制定,质量监控等几方面,下面的论文将分别阐述语料库建设的各个步骤。第2节概略的介绍了目前选择语料的类型和规模,第3节详细地介绍了情感语料库的标注体系,第4节介绍了语料建设中质量监控的方法,包括正确性和一致性检查的方法。第5节阐述了语料库的一些统计数据及应用,最后,第6节总结语料库的优点和不足,并进一步提出改进的措施。2语料的收集语料的收集工作,即选择合适的语料,做预处理,为语料的标注提前做好准备。语料选择的方法关系到语料库的覆盖率,所谓覆盖是指语料在各个不同领域的分布或散布,这些不同领域通常是指由时间轴(反映时代特征)、空间轴(反映地域特征)、学科轴(反映知识特征)、风格轴(反映语体特征)构成的四维模型[10]。我们的语料包括小学教材(人教版),电影剧本,童话故事,文学期刊等。从时间轴上看,有童话故事和小学教材等完成较早的经典文章,也有期刊和电影剧本等近一年多的作品。语料以中...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?