基于Python语言的学术论文数据挖掘与分析

基于Python语言的学术论文数据挖掘与分析刘焕英关键词Python语言;数据挖掘;医疗人工智能;学术论文;期刊编辑G232.1A2096-0360(2021)05-0021-06随着互联网技术的快速发展,大数据时代的来临,数据规模巨大,但数据存在多样性、价值密度低及关系复杂等特点。如何从海量的信息中获得有价值的信息变得越来越困难。近年来逐渐兴起的数据挖掘与分析可以很好地解决这个问题。数据挖掘技术通过多种复杂的算法在大量的元数据中发现数据间潜在的规律及有价值的信息。近年来在金融、医疗、社交及电信领域取得了显著成果,而在期刊出版领域应用较少。在已有的报道中,有编辑提出把数据挖掘应用在网络投稿系统中,可以对稿件进行分类送审、向作者定向征稿及相似文献推荐、对投稿流程及投稿系统进行质量评价及促进系统的改进[1]。也已有编辑部利用数据挖掘为期刊的选题策划、学者选择、专题策划、稿件筛选等提供更精准的数据依据,为期刊决策提供参考[2-5]。在相关的研究中,编辑们更多的是利用HADOOP、ROSTNewsAnalysisTool4.5等数据挖掘工具,这些工具计算力及交互性不够强大。本文参考谭春林[6]的数据挖方法,利用Python语言进行数据挖掘及分析。Python语言是數据挖掘领域最热门的语言,具有较好的解释性及交互性,且拥有强大的科学计算能力,能对大量科研人员成果数据进行挖掘和分析,从而获得有用的价值。而期刊编辑可利用Python对某一领域的发文情况进行数据挖掘及分析,寻找热门选题,指导期刊的选题策划。在已有的研究中,期刊编辑领域利用Python来进行数据挖掘及分析的报道较少,本文提出利用Python语言对近年来的热点话题医疗人工智能相关的学术论文进行挖掘和分析,为期刊编辑从事学术研究提供新思路。1研究方法1.1系统架构基于Python3.7的医疗人工智能相关学术论文的信息挖掘分析系统,利用Selenuim来获取相关的期刊论文,将数据清理并分析后进行结果输出。该系统主要分为三个模块,第一个模块是数据获取,从中国知网选取相关的文本信息,其中包括作者、机构,关键词、期刊、发表时间、下载及被引用次数等信息。第二个模块是数据清洗及提取,把通知、办法、条例等非学术论文的文章删除。第三个模块是数据统计分析,提取清理后的元数据,并对元数据统计分析。见图1。1.2数据来源利用中国知网数据库(https://www.cnki.net)对医疗人工智能相关题材发文情况进行大数据挖掘和数据分析。本文从中国知网数据库旧版入口,在“期刊”类目下进行“高级检索”,检索条件为“全文=人工智能+医疗/医学/医院/健康/中医;时间=2010-2019;来源=全部期刊“。(数据采集时间为2020年5月10日)1.3数据挖掘从网页挖掘文献元数据步骤如下:第1步:首先使用Selenuim的webdriver.get方法进入中国知网首页,然后使用Selenuim的element元素的send_keys自动输入【账号】与【密码】,并使用click方法以实现自动点击以登录系统。第2步:首先使用Selenuim的webdriver.get方法进入中国知网期刊的高级检索页,然后使用Selenuim的element元素的send_keys、select_by_value自动输入【人工智能】、【逻辑关系and】、【医疗/医学/医院/健康/中医】click方法以实现自动点击以进行检索。第3步:使用Selenuim元素的find_element_by_class_name获检索结果标签后,然后使用find_elements_by_tag_name获取每行的与的标签,分别使用、find_element_by_class_name与find_elements_by_xpath方法获取文章的【主题】、【刊名】、【发表时间】、【被引】、【下载】信息。第4步:循环每行把【作者】、【机构】、【关键词】、【基金】、【分类】存放在具体页面中,并使用Selenuim元素的click()进入具体页面,并使用find_element_by_class_name与find_elements_by_xpath获取以上信息。第5步:在循环完当前检索结果页后,便进入下一页,方法如下:#循环结果集页面同理,在进入下一页面时,使用方法获取上述数据,基本思路如下:循环检索结果->循环每页->循环每行(获取【主题】、【刊名】、【发表时间】、【被引】、【下载】)->进入每行具体页面(获取【作者】、【机构】、【关键词】、【基金】、【分类】)第6步:获取上述信...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?