KNN算法在舆情领域中的应用研究

KNN算法在舆情领域中的应用研究郑伟王若怡马林李明王喆[摘要]KNN算法是模式识别领域中的一种常用算法,具有简单有效、无须估计参数等优点。本文针对训练样本的不规则性,分析了相似度权重的KNN算法,并将该算法应用于网络舆情的识别实验中,旨在为研究KNN算法提供借鉴。实验结果表明:KNN算法用相似度作为权重能够有效提高舆情识别质量。[关键词]舆情;KNN算法;准确率doi:10.3969/j.issn.1673-0194.2019.06.074[]TP391[]A[]1673-0194(2019)06-0-020引言现实生活中的热点、焦点问题会引发广大网民关注,同时民众会通过网络媒体转发并发表相关意见。舆情就是大量民众集中的意见表述与诉求,网络舆情识别与预警对于舆情工作尤为重要,如有关部门提前发现舆情的源头或预测可能产生的现实危机,可以提早判断舆论走向,可以通过多部门联动做好舆论引导和应对突发事件的准备。舆情预警是否及时决定了后续舆情处理效果的好坏,如何有效地从海量的互联网言论中及时发现一些潜在的存在危机的舆论导向对维护社会安定尤为重要。目前,舆情识别技术除日常监测外还有以下技术,如主题提取、情感分析、话题聚类和话题跟踪等。近年来,一些研究者做了一些与舆情识别新技术有关的研究。例如:王珍从社会网络的角度详细分析了舆情的监测和预警方法;田殷姿提出了一种挖掘搜索引擎日志内容的舆情监测方法,并通过实践获得了较好的预警效果;刘勘等提出一种基于支持向量的真假舆情识别方法;赵静娴针对舆情的识别问题,提出一种基于组合优化决策树的伪舆情识别方法。本文主要研究了KNN算法下的网络舆情识别及分类,并尝试在KNN中采用相似度作为权重参与计算。1经典KNN算法经典KNN(K-NearestNeighbor)是一种基于统计的分类算法,原理简单、编程易理解,在各个领域应用广泛。很多研究者对其进行了不同程度的改进,在分类、推荐与模式识别方向取得了较好的效果。KNN算法的思想在分类时采用投票原则,即少数服从多数原则;通过某种测量手段测量未知样本的K个近邻数,统计K个近邻大多数属于的类别,算法如下。(1)已知训练样本集合K={K1,K2,…,Km},训练集合中样本的数目,m、n为类别数目。(2)设定待测样本的最近邻数目值k。(3)样本间的相似程度采用余弦相似度进行测量,测度值用s表示。(4)每个待测样本用Z表示。①计算m个测度值并使用排序算法对其进行排序,排序后为:s1,s2,…,sk,sK+1,…,sm。②取出其相似度最高的K个样本,然后遵守投票规则进行待测样本Z的类别值判定,Z类别值为得票数最多的那个类别。2加权重KNN算法针对K值的不易确定性、训练样本的不均匀性,KNN算法采用一种相似度加权的KNN算法,该算法在分类时可以有效体现类别代表样本的重要性,修改后的算法流程如下。(1)已知训练样本集合K={K1,K2,…,Km},m为训练样本数目,n为类别数。(2)样本间的相似程度采用余弦相似度进行测量,测度值用s表示。(3)每个待测样本Z的计算如下:①依次计算样本X与训练样本的余弦相似度si,其中i∈[1,n];②计算X的K个最近邻的相似值{s1,s2,…,sk};③使用式(1)判别样本X的类别,其中wk=sk,y?取最大值时所对应的类别为样本最终对应的分类类别。3文本特征提取方法向量空间模型常用文本向量表示,文本中的代表特征提取也称特征选择,通过构造一个评估算法,对待评估的文本特征进行打分,通过预设的阈值筛选出合适的词条作为文本样本的特征。目前,常用的特征评估函数有下列几种形式:信息增益(IG)、互信息(MI)、χ2统计(CHI)、文本证据权(WET)、期望交叉熵(CE)等。周茜对上述常用的特征选择方法进行了研究,研究发现IG、χ2、WET法的效果较佳。3.1信息增益(IG)信息增益是信息论的一种信息计算公式,可以衡量特征出现时类别的贡献度,n個类别的信息增益值需要累加。IG的定义如下。其中,t与t分别表示特征的出现与不出现,ci表示第i个类别。3.2文本证据权(WeightofEvidTxt)一个类别出现的概率与某个特征出现的概率关系可以通过条件概率之间的差别进行表示,定义如下。3.3χ2估计(CHI)CHI可以有效衡量特征词t与类c之间的依存关系,特征t的CHI计算值为零,表示特征t与类...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?