中文比较句的自动识别

第1页共16页中文比较句的自动识别摘要:评价文本的比较句识别是比较句情感分析的一项基础任务,具有重要的研究价值。提出中文比较句自动识别的方法,首先对包含至少一个关键词的候选比较句进行抽取,从而形成候选比较句集合,而后通过对候选比较句集合采用多特征融合的分类方法进行分类。实验结果表明比较句识别的性能达到87.26%的F1值。关键词:评价文本;情感分析;比较句识别;多特征融合:TP391文献标识码:A:2095-2163(2015)04-AutomaticIdentifyChineseComparativeSentencesWANGWei,ZHAOTiejun,XUBing,ZHENGDequan(MachineIntelligenceandTranslationLaboratory,HarbinInstituteofTechnology,Harbin150001,china)Abstract:Comparativesentenceidentificationin第2页共16页evaluativetextisanessentialtaskincomparativesentimentanalysis,whichhasimportantresearchvalue.ThispaperproposesacomparativesentenceidentificationmethodinChinese.First,extractcomparativecandidateswhichcontainatleastakeywordtoformasetofcomparativecandidates.Thenidentifycomparativesentencesfromthesetofcandidatesbasedonfeaturefusion.TheexperimentresultshowstheF1-scoreis87.26%.Keywords:EvaluativeText;SentimentAnalysis;ComparativeSentenceIdentification;FeatureFusion0引言比较是一种重要的观点表达方式和具有一定价值的认知方式。人们可以通过比较来认识未知事物,通过比较判断多种相似事物的高下优劣,以及通过比较获取各种决策的依据,比较影响着日常生活。在Web2.0时代,随着网络社会化媒体的快速发展,越来越多的第3页共16页用户已经从单纯的网络信息的阅读者转变为网络信息的创造者和参与者。这些用户在博客、微博、论坛、讨论组等社会媒体中发表评论和比较观点,创造了大量的主观性文本,对这些主观性文本、尤其是其中的比较文本进行挖掘,可以更快速地获取有价值的信息,更真实地了解社情民意,具有重要的现实和研究意义。比较句识别的处理对象是用户的评论文本,其任务就是从评论文本中识别出具有比较含义的句子,可以将该任务看作比较句和非比较句的二元分类任务。一些典型的比较句通常含有指示比较的关键词,如“比”,“相似”,“不同”等,这些词能够表达实体之间的比较关系,在比较句识别中起着重要的作用。然而,含有这些指示词的句子未必都是比较句,如“A的性能比较好”,类似地,不含指示词的句子也可能是比较句,如“手机A有GPS功能,而手机B没有该功能”。因此,提出有效的方法实现比较与非比较信息的分类,是比较句情感分析的一项重要任务。本文尝试使用有监督方法对比较与非比较信息进行分类。具体第4页共16页地,讨论了如何根据比较的类别提取候选比较句,以及如何利用句子内部的词语和模式特征进行分类。基于候选比较句的识别结果,对比较与非比较句进行分类,从而识别出比较句。实验表明,比较信息分类能够达到87.26%的F1值,基于支持向量机的方法可以有效识别出比较信息,同时基于比较句候选识别的方法可以有效平衡分类数据。1相关工作与比较观点相关的工作主要集中于语言学和计算语言学两个领域。在语言学领域,一些研究者对中文比较句的指示词、句法形式、语义含义和分类体系等方面进行了研究。SHANGPing[1]对现代汉语中比较句的各种分类体系进行了总结,认为比较句的研究需要坚持语义与句法形式的充分结合,同时采用简单明了的分类体系划分方法。CHEN[2]等人研究了比较句中语法项目的选取与排序,同时对常用的20种汉语比较句句式进行了总结,并对每一种句式的使用频率及该句式的语法项目选择及排列情况进行了统计。CHE激ng[3]对第5页共16页现代汉语比较句的句式范围进行了界定,并探讨了比较句的结构类型、语义类型和句法标志词等。这些研究从语言学的角度对比较句的语义和句法形式进行了考察,为比较句的计算机自动识别工作奠定了基础。在计算语言学领域,比较句的自动识别方法主要有两种:机器学习和模式匹配方法。一些研究者采用了机器学习的方法并获得了较好的性能,比较句自动识别的课题首先由激ndal和Liu[4]提出,...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?