数据挖掘在校园网日志分析中的应用研究

数据挖掘在校园网日志分析中的应用研究摘要:校园网是一个特殊的网络环境,在网络资源有限的情况下,利用数据挖掘技术从校园网日志中获取有用的信息,对学校科学地管理与分配网络资源有着重要的意义。在SQLServer2005平台下,对本校某一时段的上网日志进行挖掘分析,以便在有效管理校园网络资源方面能够给出较好的建议。关键词:数据挖掘;口志分析;聚类挖掘中图分类号:TP311.131文献标识码:A文章编号:167277800(2011)012?0168?02作者简介:李卿(1987-),女,江西吉安人,安徽理工大学硕士研究生,研究方向为计算机应用技术。1研究思路源数据为user.txt和log.txt两个文本文件。user.txt为用户分组文件,共1703条记录,以下是其中一条记录:用户名用户组user253104其中,102为研究生组、103为本科生组、104为教职工组、105为办公用户组。log.txt为用户上网日志文件,是全校所有用户在2006年11月10日12:28:48至2006年11月11日04:59:58时段内的上网记录,共389348条记录,以下是其中一■条记录:10.10.35.18userl378-[10/Nov/2006:12:28:48+0800]"GEThttp://pfp.省略/sinanews_sports.htmlHTTP/1.0"2006170TCP_MISS:DIRECT包含了用户的IP、用户名、访问时间、访问网站的地址、返回类型、请求的字节数等内容。参照数据挖掘的过程,按以下几个步骤展开数据挖掘工作:①数据准备:对用户信息文件和日志文件进行数据处理,将源数据转换成适宜进行数据挖掘的数据;②数据挖掘:对处理后的数据采用聚类的方法进行数据挖掘;③结果分析与表示:对前面步骤中获得的信息进行总结与评价。2数据准备此阶段对用户信息文件和日志文件进行数据预处理和数据清洗,将源数据转换成适宜进行数据挖掘的数据。数据的预处理是将普通文本形式的源数据转换成方便挖掘的数据库文件;数据清洗则根据需求对预处理后的数据进行属性和记录的删减。2.1数据预处理利用SQLSever的“数据导入\导出任务”将user.txt中的数据导入新建的数据库dm中,采用默认命名user,将用户名和用户组命名为"uno"和"ugroup",设置uno为主键。采用相同的方法将log.txt转换成log表,各字段名为:ip、uno、non、time、port、get、url、http、type、byte、tcp。2.2数据清洗⑴去除user表中不合法的数据。对user表进行分组,得出研究生组的记录有299条,本科生组有731条,教职工组有569条,办公用户组有89条,4组共1688条,与总记录数有出入。可知其中存在不合法数据,使用SQL语句去除。(2>去除log表中多余的字段。log表中并非所有的字段信息都有用,只需保留用户的IP、用户号、访问时间、访问地址、返回类型,请求的字节数这几个关键字段。(3>统计上网用户信息。提取整个时段内上网用户和用户组信息,并剔除不合法的记录,得到一个拥有341条记录的uno_ugroup表。说明有341人上网,此表作为挖掘模型的一个输入表。(4>按小时统计各时段的在线人数。日志按秒记录用户的访问信息,需筛选出每秒操作的用户数,按小时分组统计每个时间段的在线人数,如图1所示。(5)按用户分组统计访问网站的频率。以用户访问网站的频率为参照衡量用户上网的时长,尽可能从log表中剔除一些以url以gif、jpg、css、js、swf结尾的间接访问记录,并使用如下命令可得出访问排名:SELECTuno,COUNT(uno)AS访问频率FROMlogGROUPBYunoORDERBYCOUNT(uno)DESC图1在线人数时段分从排名中可知用户userl775访问操作最频繁,经查询易知该用户为本科生,上网时段为13:07:19〜13:50:46和17:26:57〜23:17:36,该同学整个晚上的时间都在网上。(6)按用户分组统计资源的占用情况。分析带宽的占用情况本来应该以秒为单位分别统计用户流量,求均值后再排名,但这样过于复杂。在这可以换一个思路,按用户号统计流量,排序靠前流量越高的,占用的带宽也较高。可使用如下命令得到带宽占用的排名:SELECTuno,SUM(byte)AS上网总流量FROMlogGROUPBYunoORDERBYSUM(byte)DESC排名中可知userl641用户排名第一访问量相当大经查询得知该用户为教职工,上网时段为12:30:50-01:36:51,连续7小时在线,视频下载操作频繁。3数据挖掘利用SQLSever2005的SSAS组件对上网用户进行聚类挖掘。将2.3中生成的uno_ug...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?