基于搜索引擎的关键词舆情过滤算法研究

基于搜索引擎的关键词舆情过滤算法研究摘要:网络舆情已成为社会情报的一种重要表现形式。对于性质恶劣(负面)的网络舆情信息,能否及时高效的挖掘出来对网络舆情监控具有十分重要的意义。针对目前舆情发现的时效性不足的问题,该文提出基于搜索引擎的关键词检索过滤算法,并在多线程环境下运行,充分利用索引查询的高效性,大大提高了恶劣舆情过滤的效率。关键词:搜索引擎;舆情过滤;布尔模型;索引;lucene:TP311文献标识码:A:1009-3044(2014)06-1328-05AResearchofAlgorithmaboutPublicOpinionKeywordsFilteringBasedonSearchEngineFENGRu-xiao,LIUZhi-ming,LEILong-yan(SchoolofComputerScienceandTechnology,UniversityofSouthChina,Hengyang421001,China)Abstract:Net-mediatedpublicopinionhasbecomeoneformatofsocialinformation.Astoseverepublicopinioncontext,itisofsignificanceforpublicopinionmonitoringsystemtofindthatinformationtimelyandefficient.Todealwiththeproblemoflackingefficiencyoffindingsevereopinionatpresent,inthispaper,aalgorithmaboutkeywordsfilteringbasedonsearchengineisdesignedandruninmulti-threadenvironment.Thealgorithmmakesuseofindexsearchingefficiencyandimprovesproductivityobviouslyinpublicopinionfilteringsystem.Keywords:searchengine;publicopinionfiltering;boolmodel;index;lucene随着网络成为继报纸、无线广播和电视三大传统的传播媒体之后的“第四媒体”,网络舆情对社会的影响与日俱增。网络舆情成为最主要的社会舆情表述和传播方式之一。对于公司企事业单位,一些恶劣事件的披露很可能成为他们继续发展的绊脚石;对于社会,一些有损稳定,影响极为恶劣的言论很可能对社会造成极为恶劣的负面影响。由于这些信息往往呈现爆炸式增长,因此,舆情监控系统的一个重要目标即是及早的发现舆情发布源头,从而提醒管理者及时对其进行适当的控制。这就要求舆情监控系统最好能够做到在数小时甚至几十分钟之内能够抓取到新发布的舆论信息后立刻过滤出是否含有恶劣言论,这对舆情监控系统具有十分重要的意义。目前舆情发现的方法研究可以基本归为两大类,一类是基于规则的文本内容关键词识别的方法【1,2】,一类是基于统计的机器学习文本分类方法【3~6】。第一类方法能够最大限度的在舆情未扩散之前的挖掘出网络中明显直接的舆情信息,但由于语义方面的局限性使得舆情信息的挖掘不够充分,第二类方法一般需要在一定数量的相关舆情记录出现后才能被挖掘,舆情信息的挖掘较为全面。目前有很多舆情监控系统采用这两类方法相结合的方式进行舆情监控[7,8]。对于第一类方式,较为普遍,简单而有效的一种方式是预存储一些行业恶劣情感词库,比如高校教育行业里可设定自杀、罢课、贪污,猥亵等恶劣情感词,然后对从网络中抓取到的文本数据进行关键词字串正则匹配,匹配成功则过滤出一条舆情记录同时将匹配的关键词替换成高亮文本返回给用户。该方法虽然可行,但正则表达式的算法完成一篇文档的过滤需要对关键词集中每一个关键词进行循环匹配,时间主要消耗在循环调用、字符串匹配和文本高亮替换之上,算法效率较为低下,在一定程度上影响了舆情发现的时效性。该文提出基于搜索引擎的关键词查询过滤方法,能够最大限度的利用索引查询的高效性,把批量舆情信息过滤时间控制在较短时间内,较好的解决了恶劣舆情过滤的实时高效问题。1基于搜索引擎的关键词舆情过滤算法设计在这一节中,先介绍搜索引擎背后的基本原理,然后详细介绍基于搜索引擎的关键词舆情过滤算法的设计与实现。1.1索引与布尔代数搜索引擎能够在毫秒时间内检索到成千上万的相关结果,其关键原理是索引和布尔代数运算。最简单的索引的结构是用一个很长的二进制数表示一个关键词是否出现在每篇文献中,有多少篇文献就有多少位数,每一位对应一篇文献,1代表相应的文献有这个关键词,0代表没有。比如“南华大学”的二进制数是010010001100001…,表示第二、第五、第九、第十、第十五篇文献包含这个关键词,“论坛”的二进制数是01000100100000...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?