中文情感分析综述

中文情感分析综述王庆福摘要:目前国内存在各种类型的舆论平台,以资讯类舆论平台为主,咨询类平台的受众通常都会对咨询进行评论,分析提取评论中主题内容,对评论信息进行分类分析,了解当前网民的核心诉求具有非常重要的意义。主题模型作为主题发现中重要的模型手段,对主题的定位具有明显的效果。关键词:网络评论;主题发现;网民导向中图分类号:TP391文献标识码:A文章编号:1009-3044(2016)16-0133-02Abstract:Thevarioustypesofpublicopinionplatform,basedoninformationplatformofpublicopinionandconsultingplatformaudienceusuallycommentsonconsultation,analysistoextractthematiccontentreview,toreviewtheinformationforclassificationanalysis,tounderstandthecoredemandsofthecurrentInternetusershasveryimportantsignificance.Topicmodel,asanimportantmodelinthesubjectdiscovery,hasobviouseffectontheorientationofthesubject.Keywords:onlinereview;topicdiscovery;publicopinion情感分析是目前文本挖掘中比较主流的应用领域,情感分析涵盖的内容很多,诸如电商平台中评论信息分析、社交媒体平台中用户的评论导向等都属于情感分析的范畴。情感分析能够发现用户评论数据中极性,对于分析用户的思维导向具有很好的指导价值。情感分析能够辅助电商和社交等平台更好地提升用户体验,以电商平台(淘宝)为例,淘宝的用户量级和商品量级都非常巨大,通过提取分析用户评论中情感特点,可以动态的对淘宝店铺和淘宝商品的排序进行调整,最大适度的提升用户的满意度。情感分析对社交平台的辅助性也是巨大的,很多热点社会时政信息都会在社交平台上暴露出来,通过对当前热点事件下网民的跟帖信息分析,能够发现网民对当前热点事件的趋势,一方面网民遍布全国各地,网民跟帖信息能够在一定程度上帮助验证事件的真实度。1情感分析流程情感分析包括很多的内容,例如需要对用户评论信息进行分词,分词之后需要对各个分词结果的词语进行词性分析,词性分析的结果是希望通过对单个词语的词性分析来分析整个句子的极性,需要通过机器学习的方法对每条评论信息进行极性标注,极性标注的方式可能存在多个类别而非简单的积极和消极两种情况。需要对用户产生的新评论信息进行极性分类等。1.1评论分词用户评论信息以句子和短文本为主,情感分析很重要的一步是依赖情感词典,通过将评论信息中词语与情感词典进行映射,发现可以匹配的结果,以此来界定词语的极性。因此对评论信息进行情感分析的首要工作是分词,分词的好坏决定了最终情感分析的结果。分词可以采用多种算法,最简单的方式是词典匹配的方式,即通过能够匹配词典的词语作为分词单位,分词时采用最大匹配单位为准,还有诸如最大熵分词算法,既保证当前规则的分词切分方式能够最大化的保留句子的主要信息。值得一提的是,目前应用最为广泛的应该是隐马尔可夫模型的分词算法,隐马尔可夫模型将句子切分后的各个单元概率最大化,这样做的目的是保证切词后的划分是基于统计意义下最可能的切分,分词系统结构如图1所示。1.2句法分析句法分析是分词之后的步骤,分词的目的是为了分析用户评论中各个词语的极性,分析极性的目的是为了对整个评论语句进行分析。句法分析涉及多个细节,需要对句子的组成成分进行分析,常用的分析方法是隐马尔可夫模型,隐马尔可夫模型通过对句子拆分后的各个词语进行动态组合,找出最佳的句子匹配成分,对句子成分的分析是为了能够更加准确地分析句子。1.3句子主题识别句子主题识别在电商平台应用尤为明显,用户评论的句子千差万别,需要在如此海量的评论数据中找到评论中共通的信息,以淘宝为例,淘宝评论分为有限的类别,然后评论数据量确实非常巨大,需要从海量的评论数据中识别出有限的类别。依赖于前两个流程的帮助,评论分词和句子分析,可以试图提取句子中共现次数较多的词语,并评估这些词语在整个评论数据中占据的信息量大小。1.4评论分类对海量评论数据的处理之后,如何对产生的新评论数据进行分析,即需要对新评论数据进行分类,分类的依据是之前通过历史数据学习的类别数据...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?