基于改进KPCA与SVM的题名分类研究

基于改进KPCA与SVM的题名分类研究聂黎生摘要:为了进一步提高期刊论文题名信息分类查准率和查全率,提出一种基于改进KPCA与SVM的知网题名信息分类算法。基于中国知网数据库选取《中文核心期刊要目总览》(2014年版)2017年度31种计算机学科(TP)期刊收录的13401篇论文题名作为实验语料库,采用改进KPCA算法对数据进行降维和特征提取,将提取的特征数据库作为SVM的输入进行训练和分类。实验结果表明,该方法较以往分类算法能够进一步提高期刊论文题名的分类效果。关键词:题名分类;核主成分分析;数据降维;特征提取;数据挖掘;模式识别:TN919?34;TP301.6:A:1004?373X(2019)16?0108?04随着学术期刊论文数量的迅速增长,分类检索作为服务于数据库,满足用户需求的一种服务愈显重要。目前国内外题名分类占据了论文检索主流市场。题名分类是基于预先建立的分类器,通过计算机对给定的未知类别论文集进行分类的过程。题名作为一种短文本语言规范,专业性强,内容简练,能够高度概括和集中表达论文核心内容,因此可以作为文献分类的重要依据[1]。从图书情报学专业角度看,其分类关键是依据语言词表对题名预处理获取短文本特征并用特征向量表示,然后与预先通过训练集建模构造的分类器进行模式匹配,找出每个特征的所属分类后返回分类结果。近年来,文本分类常见的算法有KNN,BPNN,ELM等。这些算法在特征选择时忽略了特征项的信息增益以及特征项与类别信息的关联程度,导致短文本分类准确率不高,难以获得用户满意的效果。针对该问题,本研究选取《中国知网》论文数据库部分论文作为研究对象,提出融合改进KPCA与SVM的知网题名分类算法,试图提高分类结果的准确率和正确率。该算法首先对收集大量期刊论文题名信息进行去噪和格式化预处理,提取其关键词和高频词归一化处理后形成特征库;然后,通过改进KPCA算法实现分类信息最大化为后续识别分类提供方便;最后,对特征库基于支持向量机(SVM)训练,建立分类器进而实现对待分文本分类并输出分类结果。3实验分析与结论3.1实验数据及过程实验依据中国知网数据库,选取《中文核心期刊要目总览》(2014年版)2017年度31种计算机学科(TP)期刊收录的13401篇论文,其原始分类粒度粗糙,提取语料的题名、关键词和摘要适合作为研究真实世界题名分类实验材料。研究对象主要针对计算机领域,选取控制策略、神经网络、机器学习及数据挖掘等領域论文的题名、关键词和摘要作为实验语料。为了降低数据不均衡对分类器的负面影响,提高分类的准确率,本文将13401篇论文随机分成3份:基础集、训练集与测试集。基础集为已知题名类别的集合,用于计算题名特征与其他论文题名特征的交集数量;训练集也是已知题名类别的集合,用于构建分类器(SVM,BPNN等);测试集主要用于检验不同分类算法的分类性能。3.2性能评价与分析为测试本算法的有效性,采用信息检索和分类体系常用的查准率Precision(P)、查全率Recall(R)、测试值F?measure(F)评估算法的分类性能。依次采用IMKPCA?SVM,KPCA?BPNN,PCA?SVM三种算法对测试集分类。不同分类算法的Precision,Recall及F?measure值如表1所示。从表1可以看出,基于IMKPCA?SVM分类方法各评价指标值均超过95%,分类精度整体最佳,主要原因在于IMKPCA降维处理后并计算类别信息度量保留了核心特征,同时采用SVM分类器,避免了BPNN的“维数灾”[9]和PCA只能提取线性特征结构的缺陷,最终使分类准确率显著提升。为了进一步揭示本文算法分类性能,表2列出了各分类算法的细分指标。从表2的类别细分结果可以看出,基于IMKPCA?SVM分类方法在控制策略和数据挖掘2个领域中的分类效果较好,其主要原因是控制策略和数据挖掘的领域知识较为成熟,通过知网可以获得质量较高的题名特征。但神经网络和机器学习作为风靡全球的新兴交叉学科领域,知网收录研究论文和登录词汇相对缺少,且由于本次实验选取的数据规模有限,并未包含其他领域中的足够概念,所以从实验结果看出这两个领域的分类性能有所受限。4结语本文提出一种基于改进KPCA降维与SVM分类的题名分类方法,该方法首先采用KPCA算法降维提取高频词汇和题名关键词得到分类结果的核...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?