精品大数据与互联网的舆情管控

大数据与互联网的舆情管控大数据与互联网的舆情管控【摘要】介绍了一种基于大数据基础技术和应用技术进行互联网舆情管控的方法。该方法将互联网舆情管控分为大数据收集、舆情发现、信息源定位3个阶段。当有热点事件发生并在互联网上广泛传播的时候,利用互联网舆情管控的基本方法就叮以及时掌握该事件在互联网上的传播情况、判断该事件是否被恶意引导或曲解并找出信息传播的关键节点,为互联网舆情管理单位提供管控依据和有力支撑。【关键词】互联网舆情大数据数据挖掘自然语言处理中图分类号:TP393.4文献标识码:A文章编号:1006-1010(2014)-13-0019-051从“净网”到互联网舆情从“净网”说起:为依法严厉打击利用互联网制作传播淫秽色情信息的行为,全国“扫黄打非”工作小组办公室、国家互联网信息办公室、工业和信息化部、公安部决定:自2014年4月中旬至11月,在全国范围内统一开展打击网上淫秽色情信息的“扫黄打非净网2014"专项行动。从内容和舆情管控的角度来分析,“净网”不是一个孤立的行动,它的根本目标是防止互联网业务和互联网工具成为不良信息和违规内容的传播渠道。“净网”行动“净”什么?为了便于讨论,我们将互联网上的信息分为2大类:可信任源内容(TrustedResourceContent,TRC)和用户产生内容(UserGeneratedContent,UGC)。一方血,TRC指由可信任的媒体发布的信息,如人民日报社、新华社等,这类媒体需要具备信息采编、发布的资质,且有非常严格的内容审核制度保证内容的可信、新闻的真实。另一方血,UGC指由互联网用户自写的内容,这些内容可以是文字、图片、音频、视频,并通过论坛、BBS、微博、自制小网站或者其他互联网媒介发布。它们具备一个最显著的特征,即用户自媒体特征。由于这些用户一般没有新闻采编和发布内容的资质,且内容可能未经严格的审核,易造成其内容失真、歪曲,其至可能是淫秽或其他不良信息。“净网”的主要目标的就是保证UGC内容的合法合规。让人又爱又恨的UGC:互联网媒体正在成长为继报纸、广播、电视之后的“第四媒体”除了TRC内容以外,其推动力还包括以UGC形式出现的用户互动。这种互动真止体现了互联网的“互联”、“互通”和“互动”o它一方面促进了互联网的迅猛发展,但另一方面,若恶意用户利用UGC扩散和传播违规内容,将会给社会带来极大的负面影响。UGC和互联网舆情:互联网舆情的组成元素是网民/公众的互联网UGC,它以互联网为载体,以社会事件为核心,是社会事件的言论、观点、态度、情感的集合体,•且有较强影响力和倾向性。由于互联网UGC有着发布随意性、隐蔽性、高传播性、偏差性和易受影响性等特点,互联网舆情并不能等同于社会舆情。但是它代表了很大一部分人群对某一问题、事件的倾向性意见,且这些意见和情绪容易受到影响,甚至引导煽动。互联网舆情分析课题越來越受到重视,研究机构、国家级重要媒体也纷纷成立互联网舆情研究办公室,如人民网舆情监测室、清华舆情研究室等。2大数据基础技术和应用技术维基百科对大数据的定义是“一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集”。IDC报告中指出“大数据技术描述了一种新一代技术和架构,以很经济的方式,以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值”o大数据尚处于行业发展的初期,所以对于大数据是一个数据集还是一个技术集尚有不少的争论。我们认为,它既是一个数据集也是一个技术集,它更是一个场景集。需要从海量非结构化数据中去除噪声获取信息的场景都是大数据的场景;并行计算技术、分布式存储技术、数据挖掘技术等都属于处理海量数据的大数据技术。大数据的基础技术主要指对数据的计算和存储技术,如分布式计算技术(Mapreduce,Hive等),分布式存储技术(IIDFS,IIBase等),这些技术用于对海量数据进行计算、存储以及综合管理。但是大数据的场景各种各样,除了基础技术以外,还需要其他技术对各种不同场景下的数据进行进一步处理,我们称Z为大数据应用技术。在本文讨论的场景中,互联网舆情数据的处理除了需要借用大数据基础技术和平台外,还需要利用适合木场景的大数据应用技术加以处理,如数据挖掘技术、自然语言处理...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?