基于文本挖掘的鸿蒙系统用户评论情感分析与研究

基于文本挖掘的鸿蒙系统用户评论情感分析与研究陈诺祎单菁王佳英石璐璐摘要:随着科技的进步,由华为自主研发的首个国产手机操作系统成功问世,引起社会强烈反响。该文以网络爬虫抓取的用户评论为例,基于评论数据建立评估模型,主要使用文本描述性分析、SnowNlp情感分析和LDA潜在主题挖掘这3种方法,从不同角度对用户评论进行文本挖掘分析,找出评论大数据背后隐含的情感倾向、用户观点等深层信息,有助于企业了解用户的使用体验与口碑动态。该文分析模型的评估效果可信度较高,所采用的研究方法也适用于电商评论分析、社会舆情分析等方面。关键词:网络爬虫情感分析LDA文本挖掘中圖分类号:TP391.1:A:1672-3791(2021)06(a)-0026-04SentimentAnalysisandResearchofUserCommentsonHongmengSystemBasedonTextMiningCHENNuoyiSHANJing*WANGJiayingSHILulu(SchoolofInformationandControlEngineering,ShenyangJianzhuUniversity,Shenyang,LiaoningProvince,110168China)Abstract:Withtheprogressofscienceandtechnology,thefirstdomesticmobilephoneoperatingsystemdevelopedbyHuaweihasbeensuccessfullylaunched,whichhasarousedstrongsocialresponse.Basedonwebcrawlerfetchingusercommentsasanexample,theevaluationmodelisestablishedbasedonthereviewdata.Threemethodsaremainlyused:textdescriptiveanalysis,SnowNlpsentimentanalysisandLDApotentialtopicminingmethod,conductingtextmininganalysisonusercommentsfromdifferentperspectivestofindouttheemotionaltendency,useropinionsandotherdeepinformationhiddenbehindthebigdataofcomments.Itishelpfulforenterprisestounderstandtheuserexperienceandwordofmouthdynamic.Theevaluationeffectoftheanalysismodelinthispaperhasahighcredibility,andtheresearchmethodadoptedisalsoapplicabletoe-commercecommentanalysis,socialpublicopinionanalysisandotheraspects.KeyWords:Webcrawler;Sentimentanalysis;LDA;Textmining鸿蒙OS是一款“面向未来”的操作系统,一款基于微内核的面向全场景的分布式操作系统,是由华为开发人员打造的国产手机系统。对于鸿蒙系统的正式发布,国内用户纷纷通过网络平台发布对该系统的评论看法,用户的评论信息包括了客观评论与主观评论,而主观评论占比极高,该文通过采集B站(某自媒体视频网站)关于鸿蒙系统视频底部的用户评论信息,建立相关的文本挖掘模型对评论信息进行深度挖掘。1研究方法该文对选取的关于鸿蒙系统在线评论利用八爪鱼采集工具,设定采集规则。主要抓取的内容为用户评论信息。对于抓取的数据进行数据清洗,包括文本去重、去空值、剔除广告信息与无意义评论、中文文本分词等操作。通过将自主构建的关于手机系统的语料库导入到snownlp情感分析模型中进行无监督训练,以提高模型预测准确率,并利用TF-IDF算法的思想,提取评论中的关键词以及词频;利用LDA潜在主题挖掘模型深入分析好评集和差评集。最后通过上述分析结果,剖析鸿蒙系统产品问题。图1为研究主要路线图。2在线评论获取挖掘用户关于华为鸿蒙系统在线评论中隐含的信息,首先需要利用网络爬虫获取大量的在线评论。获取在线评论数据主要通过编写数据采集程序(称为网络爬虫),网络爬虫可以自动爬取网页,获取网页的内容[1]。该文通过一款完全自主研发的分布式云平台——八爪鱼采集器,自动获取B站用户在线评论数据,爬取的评论数据见表1。3数据预处理利用网络爬虫工具从网站采集的用户评论数据存在较多的无用数据,会对实验结果产生较大的影响。数据预处理主要去除不完整的、不一致的数据并排除低质量的数据,预处理过后的数据可以提高实验结果的准确率,下面将主要阐述对原始数据集进行预处理的过程。3.1数据清洗爬取到的评论文本中存在较多重复行、特殊字符及英文字符,并且用户可以自由发表对评论主体的主观意见,评论内容具有极强的随意性,评论质量得不到保证。在研究过程中,主要使用Python语言编写相关程序对文本长度大于20的重复评论以及特殊字符、英文字符进行剔除。对于满足基...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?