网络机器人探测技术在开放获取机构知识库用户使用数据统计中的应用

网络机器人探测技术在开放获取机构知识库用户使用数据统计中的应用(1•兰州大学图书馆甘肃兰州730000)摘要:文章通过文献分析对网络机器人探测技术的研究现状进行总结;对DSpace>EPrintsDigitalCommons、UniversityofMinhoStatisticsAdd-onforDSpace以及InstitutionalRepositoryUsageStatisticsUK(IRUS-UK)5个机构知识库平台中网络机器人探测技术的应用进行了比较。探讨了开放获取机构知识库建设过程中的用户使用量统计问题的解决方案。分析得出:在开放获取机构知识库中同时应用网络机器人探测技术与人工排除网络机器人措施,对于提高用户使用数据统计的准确性有一定的帮助;学术类搜索引擎是网络机器人探测技术监控的重点对象。关键词:网络机器人探测;开发获取机构知识库;用户使用数据统计中图分类号:G202文献标识码:ADOI:10.11968/tsyqb.1003-6938.20170421引言机构知识库(IR)建设与开放获取(0A)运动止在全球范围内冲击和改变着传统的学术出版模式及传播方式,影响和变革着传统出版发行机制、知识交流利益分配方式知识成果的价值判断标准等,形成了一股不可逆转的知识成果运动方式变革潮流[1]。截至2016年11月,全球范围内的学术性机构知识廂数量已超过4000个,这些机构知识库中的很大一部分由学科联盟或各高校自主建设,以用户自存储的模式来保存和展示科研人员的研究成果,通常这些资源支持开放获取。随着用户获取信息的途径越來越多,使用情况的统计数据成为分析和了解资源价值的重要手段。现阶段对于下载量统计数据有两种不同的观点,一些认为下载量统计方式存在问题,统计结果为无用信息[2],另一些机构和用户使用这些数据进行论文排名、作者排名、甚至定期将这些数据发布以进行宣传。文章下载量有时还被作为预测文章被引次数的前期指标[3],可以说是学术和科学研究出版物的最重要指标之一。无论持有哪种观点,任何数据作为一个度量或仅作为简单的宣传推广目的使用都必须是准确的。然而,各类搜索引擎以及恶意评论制造者对网络机器人的使用对开放获取机构知识库的数据统计准确性提出了极大挑战。有数据表明,由网络机器人制造的流量,占到了网络总流量的&51%-32.6%[4]。网络机器人在不同类型的网站上所制造的流量差别很大,有一项针对互联网档案馆的调查表明,93%的使用请求来口于网络机器人⑸。有哪些技术可用来探测网络机器人?主要的机构知识库平台是如何进行网络机器人探测的?这些问题的探讨对我国开放获取机构知识库建设过程中的用户使用量统计问题的解决提供了参考。2网络机器人探测技术Tan与Kumar[6]最早开展了对网络机器人探测技术的研究;Doran与Gokhale[4]对主要的网络机器人探测技术进行了总结。虽然这些研究主要来自于计算机科学领域,但已有研究人员将研究重点聚焦在其在学术信息系统的应用上[7-9]。对Doran与Gokhale的分类体系进行简化后,列岀了用于网络机器人探测的23个独立变量(见表1)。研究人员提出的变量分析方法各不相同,既有在服务器端对已知的机器人进行数据匹配的方式[8]也有利用复杂的机器学习技术的方式[10]o可以明确的是,没有一种方法可以保证精确的探测到所有访问过网络服务器的机器人。因此,网络机器人探测技术的阶段性目标变成了在保证错报数量最小(查准率)的基础上最大程度的探测出网络机器人(查全率),即在尽量少的把人工行为标注为网络机器人行为的同时尽可能多的捕获网络机器人[11]。笔者对各项针对网络机器人探测技术查全率、查准率以及F-值(查全率与查准率的调和平均数)的研究进行了汇总。可以看出,网络机器人探测技术的查全率在0.85与0.97之间,查准率在0.82与0.95Z间,F-值在0.84与0.94Z间(见表2)。在测试一项机器人探测技术吋,研究人员首先要知道日志文件中的哪一个会话是网络机器人所创建。大部分情况下,检测与标注数据的工作是应用另一项非测试的机器人探测技术以自动或半自动的形式完成的,但有时是通过人工形式进行的。Doran?cGokhale[12]分析了人工检测与自动检测数据集的优缺点,指岀人工检测准确率高,但可检测的网络机器人的范围较小,口受到数据大小的限制,口动检测所用到的技术本身就不...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?