网络有害信息的发现和过滤技术手段共3页

网络有害信息的发现和过滤技术手段互联网的快速发展使得人们可以很方便的获得各种信息,与此同时,抵御互联网的反动、淫秽或色情等有害信息的思想文化渗透成了一个迫切需要解决的问题。互联网上主要有两类有害信息:一类是反动、色情、迷信、谩骂和机密等有碍社会公德和不便公开的信息;另一类是会影响互联网本身和用户计算机安全的不良代码,如特殊控制、计算机病毒等。网络有害信息的发现机制主要有主动发现和被动防御两种方式。主动发现的方式主要有基于搜索引擎的有害信息主动监测,被动防御的方式以网络内容过滤为主。1.基于搜索引擎的有害信息主动监测技术采用主动扫描探测方法进行有害信息监控的系统,首先要设计网络蜘蛛模块,实现对html、aspx等网页的自动抓取,采用算法实现中文分词,开发信息索引模块,实现对网页的批量和增量索引,并且包含有害信息检索模块,实现有害信息监控及预警功能。搜索引擎,概括起来其组成大致分为四个部分:(1)搜索器。主要完成互联网上获取网页和链接结构信息进行分析处理;(2)索引器。理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表,为用户检索奠定基础。索引器可以使用集中式索引算法或分布式索引算法(3)检索器。用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。(4)用户接口。主要作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。主要目的是方便用户使用搜索引擎,高效率和多方式地从搜索引擎中得到有效并且及时的信息。2.内容过滤技术内容过滤技术一般包括名单过滤技术、关键词过滤技术、图像过滤技术、模版过滤技术和智能过滤技术等。现阶段的内容过滤技术主要分为基于网关和基于代理两种,二者都不能解决的问题是对网络速度的负面影响。而且因为是串行处理,如果网关和代理出现故障都会使网络不通目前过滤技术大多在网络处理的应用层实现,适应性和安全性较差。基于网络层的实现,最大的挑战有两个方面:首先,应用层分析技术必须全面,因为直接对网络包进行应用需要充分了解需要过滤的所有应用在网络层是如何实现的。其次,是实现兼容性,为实现与操作系统网络底层处理融合,需要充分了解操作系统网络实现机制,甚至替代部分功能,如何不影响操作系统的原有功能是相当困难的,3.有害信息监测的核心技术有害信息监铡的核心技术包括分词技术、文本内容分类、关键字识别、变形关键字识别、锚文本分析、有害代码特征识别等3.1、分词技术对网页进行监测时需要进行特征项的提取。对于英文文本,一般是进行词汇的提取,由于词汇之间有天然的分隔符(空格),所以特征项的提取比较容易。中文信息没有这个特点,所以必须采用中文分词技术,把没有词汇标示的中文句子,通过某种特殊的技术切分出词汇。现有的分词算法可分为三大类:基于字符串匹配的分词方法(机械分词方法)、基于理解的分词方法和基于统计的分词方法。基于字符串匹配的分词方法也称为基于词典的分词方法是目前二种分词方法中最快的。影响这种方法分词速度的因素主要有两点:词典的结构以及匹配算法。3.2、文本内容分类文本内容分类是一个广泛研究的课题,是通过文本分类的方法,把网页分为有害信息网页和普通信息网页。现有的文本分类方法有支持向量机(SVM)、决策树、Nearestneighbor、algorithm等。这些分类的基本思路都是从文章中抽取出一些特征关键词,根据这些关键词在文章中的出现次数对文章进行向量化之后的分类。3.3、关键字识别对关键字词进行过滤,最理想的方法就是先对字串的词法、句法和语义信息进行分析,再根据句义进行取舍。但计算机对语法、语义的自动分析目前仍处于研究阶段,还不成熟通常的做法是先人工做成一个含有需要过滤词汇的词典,再根据该词典对用户所发的信息进行检查,即在信息中逐个查找词典中的每一个词。如果找到,有两种方法处理:一是终止查寻,认为该留言不能发表;二是继续查找,直到找出文本中所有的关键词,然后计算该留言中关键词出现的频度,根据事先制定的规则,决定该信息能否通过发表。3.4、变形关键字识别为了逃...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?