基于朴素贝叶斯算法的垃圾短信智能识别系统

基于朴素贝叶斯算法的垃圾短信智能识别系统摘要:在信息化时代,垃圾短信、诈骗短信越来越成为人们日常生活中的困扰。在对垃圾短信的发展及市面上现有的拦截垃圾短信的软件进行分析后,发现垃圾短信为了躲避拦截在不断变化,拦截软件需要更加智能的去识别这些垃圾短信。为了应对不断变化的垃圾短信,为了解决联网举报、黑白名单等传统垃圾短信拦截模式触及不到的盲区,提出通过机器学习的方式让垃圾短信的拦截更加具智能化。该文就解决垃圾短信智能识别的问题,主要阐述了基于朴素贝叶斯公式的垃圾智能识别算法,分析了其算法效率,介绍了该算法在安卓平台上的设计,并对该系统进行了测试和评估。关键词:垃圾短信智能识别;机器学习;朴素贝叶斯公式中图分类号:TP18文献标识码:A文章编号:1009-3044(2016)12-0190-031概述1.1背景介绍科技高速发展的今天,智能手机已经越来越成为人们日常生活中必不可缺少的一部分了。骚扰电话和垃圾短信不仅严重干扰了人们的日常生活,甚至对于那些认知能力较差的群体,容易使其上当受骗,造成精神和财产上的损失。国家立法并不完善,无法做到手机号码实名制,预防垃圾短信的任务艰巨困难。现在市面上的垃圾短信拦截软件普遍具有以下缺点:1)不支持用户个性化的识别功能。每台手机无法根据用户的偏好提供相应的拦截服务;2)很大程度依赖黑白名单,在白名单联系人手机被盗后无法预防诈骗短信;3)收集用户信息。需要连接网络,将用户的信息上传至企业,一定程度上侵害了用户的隐私权。1.2我们的改进针对以上情况,为了更好识别、过滤垃圾短信,在本文中,我们设计了一种基于朴素贝叶斯算法的垃圾短信智能识别系统。该系统存储了大量有利于判别垃圾短信的关键词,根据短信内容中出现的关键词进行垃圾短信判断,也可以根据用户的反馈进行智能学习,提供符合用户需求的服务。除此之外,在不连接移动蜂窝网络的情况下也可正常使用,不会将数据上传至服务器,保证不对用户的信息进行收集与窃取。2贝叶斯算法2.1贝叶斯算法的简介朴素贝叶斯算法是用于分类的概率算法,在具有大量数据的情况下通过概率分析、判定某物是否能归于某类,具有很高的准确度。对于拦截垃圾短信这一课题,我们也可以用朴素贝叶斯公式对短信进行分类,类别有二:垃圾短信和正常短信,在具备大量关键词出现概率的条件下我们能对短信进行实时分类,实现了对垃圾短信的判定。2.2分类器的数学模型根据测试,MI>2时该特征能起到判别的作用,故此值可作为选择关键词的依据。无论一个关键词是集中出现在垃圾短信中还是集中出现在正常短信中,该关键词对区分垃圾短信与正常短信都产生了贡献,应收纳进关键词数据库中。但事实上,垃圾短信数量与正常短信数量有很悬殊的差距,正常短信的数量要远大于垃圾短信的数量,若选取集中出现在正常短信的关键词,该关键词的MI值很难大于2。故实际运用中多数选取集中出现在垃圾短信的关键词作为特征。5算法效率分析在具备各个关键词的相关条件概率和先验概率的情况下,可以对短信进行判断。先验概率的计算只需一步即可完成,时间效率是线性的。计算关于各个关键词的条件概率是需要进行累乘来实现。假设有N个关键词,其中包含在短信文本中的关键词有N’个,累乘的时间效率为O(N’)。根据经验,一个短信文本中含有的关键词数量远不及存储的关键词集,N’<<N,朴素贝叶斯算法的判断过程并不需要消耗太多时间,具有高效性。在空间上,每个关键词本身需要占用10个字节,加上有关该关键词属性的数据,每个关键词共计占20个字节,海量关键词库需要1000个左右的关键词,这样算来,判断垃圾短信需要占用手机20k左右的存储空间,当下手机的存储空间都在16G以上,本系统的数据仅占用手机存储的0.000119%,占用空间很小。6系统设计与实现6.1系统的组成该智能识别垃圾短信系统主要包含两个功能,判断垃圾短信功能和智能学习功能。判断垃圾短信功能分为下面三个部分:识别短信部分、比较关键词部分和计算概率部分。学习功能由用户反馈的机制实现,具体分为:手动添加垃圾短信,手动删除垃圾短信。6.2数据库的设计除了存储各个能作为判别特征的关键词,还应该...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?