基于情感倾向的书评自动分类

基于情感倾向的书评自动分类张朝阳摘要商品评论的自动分类在电子商务中有重要的应用价值。首先对图书评论语料库进行未了登录词识别。然后以《知网》情感词为种子词汇,提出了一种基于条件随机场的Bootstrapping情感词挖掘算法,并利用互信息将这些情感词分为褒义和贬义。根据句子中包含正面情感词和负面情感词的数目,同时考虑否定副词和转折连词的影响,将图书评论自动分为好评和差评。对从电商网站上随机爬取的2026条书评做自动分类,平均正确率达81.8%,平均召回率达81.1%,说明了算法的有效性。关键词情感挖掘书评分类条件随机场AUTOMATICCLASSIFICATIONOFBOOKREVIEWSBASEDONEMOTIONALTENDENCIESZhangChaoyangAbstractAutomaticclassificationofproductreviewshasgreatapplicationvalueine-commerce.Firstly,unknownwordswererecognizedfromcorpus.WithHowNetemotionalwordsasseedvocabulary,abootstrappingemotionalwordsminingalgorithmbasedonConditionalRandomFieldsisproposed.Emotionalwordsweredividedintopraiseandpoorinthelightofmutualinformation.Accordingtothenumberofpositiveandnegativeemotionalwordsinasentence,meanwhiletakingintoaccounttheeffectsofnegativeadverbsandconjunctions,bookreviewswereautomaticallydividedintogoodandbadbasis.Classificationexperimentson2026bookreviewscrawledfrome-commercesiteprovedtheeffectivenessofthisalgorithmwitharesultof81.8%accuracyand81.1%recall.KeywordsEmotionalminingBookreviewclassificationConditionalrandomfields0引言商品评论是电子商务信任机制的重要组成部分,目前国内的电商网站都会将评论分为好评与差评以方便用户浏览,然而它们划分的依据仅仅是用户给商品评的星级,这在有些情况下是不准确的,比如京东商城上有一条书评是“新书,物流给力,还没看内容,不能妄评”,根据评论的内容来看用户表达的正面情感要多一些,但由于只评了一颗星所以京东把这条书评划入了“不喜欢”。本文挖掘图书评论中隐含的情感,自动将其分为好评或差评。按情感倾向对商品评论进行分类时一般可使用情感词作为特征项对文本进行表示,通过相似度比较将文本进行归类。周德友[1]研究了基于HowNet的情感词构建。马渊[2]在计算语义相似度时考虑了义原深度对语义相似度性能的影响,并使用经验权值系数对语义相似度算法进行改造。闻彬等[3]重新定义概念的情感相似度,对程度副词进行精细的划分并赋予不同的权值,同时考虑了否定副词对语义理解的影响。韩忠明等[4]则进一步考虑了转折和递进连词对语义理解的影响。李荣军[5]使用多分类器融合框架检测句子倾向,并引入自适应算法以提高分类精度。文能[6]在对评论进行倾向性分析之前先构建特定商品领域构的本体,详细识别评论的对象。本文根据图书评论中包含正负面情感词的多少,同时考虑否定副词和转折连词的影响,将评论分为好评和差评。这里的重点工作在于搜集尽量完备的情感词词库,本文提出一种基于条件随机场的Bootstrapping方法对情感词进行识别标记。在此之前我们先对书评语料中的未登录词进行了识别,因为未登录词中也可能包含情感词。1条件随机场条件随机场(ConditionalRandomFields,CRF)最早由Lafferty等人于2001年提出[7],是一种用于标记的统计方法。CRF采用了一阶链式无向图结构,如图1所示,是观察序列,是标签序列,X是全局条件,并且不对X作任何假设。Y1YTYT-1Y3Y2X=X1X2…XT…图1CRF的链式无向图结构在给定观察序列X的情况下,标签序列Y的条件概率为:(1)其中为i-1到i时刻的状态转移特征函数,为i时刻的状态特征函数,与是由训练样本得到的特征函数权重,是归一化因子。为了统一状态转移函数和状态函数的表达形式,我们把状态函数写为:(2)这样我们用统一地表示状态转移函数和状态函数。这里是一个布尔函数,取值只能是0或1。令(3)则得到条件随机场的最简模型表示:(4)CRF++是CRF算法的开源实现,在使用CRF++时我们可以在一个名为“template”的文件中自由地指定特征函数,这个模板文件每行的内容形如:U01:%x[-2,0]/%x[-1,0]/%x[0,0]“U01”是一种...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?