贝叶斯公式在处理垃圾邮件中的应用

基于贝叶斯技术的垃圾邮件处理研究易均,李晖,王歆(江西省科学院,江西南昌330029)摘要:本论文首先对垃圾邮件进行了简要的描述,并叙述了反垃圾邮件技术的研究现状,介绍贝叶斯过滤技术的工作原理及技术原理,最后给出贝叶斯技术研究的发展方向。关键词:贝叶斯技术;反垃圾邮件1、前言随着因特网应用的快速发展,电子邮件也逐步成为因特网的最大一个应用之一,给我们生活带来很大的方便,而且电子邮件的发展也代表了我国进入信息业高速发展的阶段。但是也同时产生了一个新的问题,即大量的垃圾邮件出现。如何把电子邮件中的垃圾邮件过滤掉,已经成为电子邮件用户此刻最关心的一大问题,这也就是所谓的“反垃圾邮件”问题。反垃圾邮件是具有相当难度的事情,垃圾邮件每天都在增加和变化。据Radicati估计2007年,垃圾邮件的比例将达到70%。现在的垃圾邮件发送者变得更加狡猾,采用静态反垃圾邮件技术很难防范。垃圾邮件发送者只要简单的研究一下现在采用了哪些静态反垃圾邮件,然后相应的改变一下邮件的内容或发送方式,就可以逃避检查了,因此,必须采用一种新的技术来克服静态反垃圾邮件的弱点,这种技术应该对垃圾邮件发送者的各种伎俩了如指掌,还要能适应不同用户对于反垃圾邮件的个性化需求。这种技术就是贝叶斯过滤技术。2、垃圾邮件概述以及反垃圾邮件技术的研究现状2.1、垃圾邮件的概述我国至今对垃圾邮件的定义有很多种,包括如下几种:①收件人没有提出要求或者同意接收的广告、及其各种形式的宣传品等宣传性的电子邮件;②在邮件中,隐藏了发件人身份、地址、标题等信息的电子邮件:③含有虚假的发件人的身份、地址等信息源的电子邮件;④收件人无法拒收或者无法删除的电子邮件。目前,垃圾邮件的定义被扩大了,除了上述对垃圾邮件定义外,病毒、反动、色情等等无用的邮件,也被包括在垃圾邮件的定义中。2.2、反垃圾邮件技术的研究现状目前影响较大的主流反垃圾邮件技术有以下二种:⑴协议改进类的方法,重新构建SMTP协议,加入安全认证机制。针对垃圾邮件问题对SMTP协议进行改进和完善是许多研究人员关注的重点问题所在。因为就SMTP协议改进而言面临着很多棘手之处,因此目前新协议没有得到广泛的使用,相信未来随着网络结构的进一步发展,在这方面的研究成果会成为解决垃圾邮件问题的有力措施。⑵在当今的邮件系统中载入其它处理程序来阻断垃圾邮件,其中包含了垃圾邮件过滤技术、邮件服务器的安全管理技术两部分内容。对过滤技术的应用主要集中在利用IP或者域名“黑名单”进行邮件过滤或中断;基于数据挖掘技术进行的过滤垃圾邮件,利用文本分类与统计算法进行垃圾邮件检测。比较有代表性的包括结合DNS的实时黑名单过滤、贝叶斯过滤器等,其中贝叶斯过滤器以较高的准确率在垃圾邮件过滤技术中占据了很重要的地位。3、贝叶斯过滤技术3.1、贝叶斯过滤技术的工作原理根据贝叶斯理论,根据已经发生的时间可以预测未来事件发生的可能性。将该理论运用到反垃圾邮件上:若已知某些字词经常出现在垃圾邮件中,却很少出现在合法邮件中,当一封邮件含有这些字词时,那么他是垃圾邮件的可能性就很大。⑴创建基于字词符号的贝叶斯数据库用户首先需要对贝叶斯进行培训,即将邮件分类为垃圾邮件(用户不想要的)和正常邮件(用户想要的),贝叶斯将提取这些邮件样本中主题和信体中的独立字串,包括字词(word)和符号(token)(如$,IP地址,域名等),并建立相应的数据库。⑵创建贝叶斯概率库统计出每个字串在垃圾邮件中出现的概率以及在正常邮件中出现的概率,然后根据公式计算出邮件中含某字串则为垃圾邮件的概率。例如:在3000封垃圾邮件样本中"mortgage"(抵押)出现了400次,而在300封正常邮件中这个词出现了5次,那么其对应的垃圾概率为0.8889([400/3000]/[5/300+400/3000])。⑶创建个性化的贝叶斯库由于每个单位对所收到的邮件偏好是不同的,例如,某个金融类单位在正常邮件中可能经常用到"mortgage"这个词,如果使用静态的关键词过滤,就可能产生很多误判。如果采用贝叶斯过滤,在对贝叶斯进行培训的时候,将该单位的合法邮件(自然,很多都包含了"mortgage"这个...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?