基于改进BP网络的中文期刊论文分类方法

基于改进BP网络的中文期刊论文分类方法关键词:BP网络;论文分类;特征提取摘要:文章将改进BP网络应用到期刊论文的分类领域中。该方法根据中文期刊论文的特点选择题名、摘要及关键词作为特征项的,计算特征项的权值,设定阀值对特征项向量进行降维处理,最后利用BP神经网络对不同的阀值分别进行分类实验,比较其效果。:TP391文献标识码:A:1003-1588(2014)05-0061-03收稿日期:2014-03-11:张瑾(1970-),郑州轻工业学院图书馆馆员。1序言1960年,Maron发表了第一篇自动分类文章,将贝叶斯定理运用于文本自动分类,标志着自动分类技术的正式产生[1]。1998年,JoachimsT将支持向量机算法应用于文本自动分类[2],YangY.和ChuteC.G两位学者提出了K邻近的分类方法[3]。相对于国外,国内的文本自动分类研究起步相对较晚,基于机器学习技术的自动分类也是目前我国文本自动分类领域的主流。国内学者的研究对象主要是中文文本自动分类,国内学者学习并应用了各种分类算法,并根据中文的特点构建了我国的中文文本自动分类体系[4]。刘锋将径向基神经网络模型应用到了XML文本的自动分类中[5]。胡清华提出了可变精度的粗糙集模型,引入精度的概念,提高了处理不一致信息的能力[6]。笔者将文本分类技术应用到期刊论文的自动分类中,根据期刊论文的特点,在选择数据上进行改进,同时对传统的BP网络算法进行改进,构建分类系统,从大规模期刊论文中提取分类的信息,并验证其分类的可行性。2期刊论文分类的问题描述期刊论文分类的任务是:在给定的分类体系下,根据论文的主题自动确定论文的类别。从数学角度看,期刊论文分类是一个映射过程,它将未知分类的论文映射到已有的类别中。该映射可以是单映射,也可以是一对多映射。笔者为了简化问题,采用一对一映射。论文分类的映射规则是系统根据已经掌握的每个类别的很多样本数据信息,总结出分类规律而产生的分类规则,完成分类器的构建。输入未知类别的论文,根据分类规则确定其相应的类别。3数据预处理3.1空间模型为了使计算机能够自动分类,必须先将论文转换为计算机可以识别的格式,笔者采用向量空间模型(即VSM)。其基本思想是以向量模式表示一篇论文:(W1,W2,W3,…,Wn),其中Wi为第i个特征项的权重。论文在结构上由题名、、摘要、关键词及正文等组成,笔者认为这些信息中能够为论文分类提供依据的有题名、摘要和关键词。笔者采用中国科学院计算技术研究所研制的汉语词法分析系统ICTCLAS(InstituteofcomputingTechnology,ChineseLexicalAnalysissystem),对题名和摘要进行分词,然后进行停用词剔除,将得到的词语和关键词一起组成特征项。在文本自动分类研究中,计算特征项的权值时一般采用TF-IDF算法来计算,笔者采用另外一种方式计算特征项权值,即特征项出现在题名中时其权值为3,出现在关键词中权值为5,出现在摘要中权值为2。在正常情况下特征项在题名中重复的概率很低,故不考虑出现的频率。但在摘要中的特征项重复的概率较高,频率为m,在计算特征权值时,其权值为2*m。因特征项可能即出现在题名中又出现在关键词或摘要中,此时设定权值取最大值。3.2特征提取对期刊论文进行向量空间表示之后,特征空间的维数会很大,因此必须进行特征抽取。特征抽取可以降低空间维数,简化计算,防止过度拟合。特征抽取常用的方法有:文档频率法、信息增益、相互信息法和x2统计法等。笔者采用一个新的方法即设定一个阀值,剔除小于阀值的特征项,保留大于阀值的特征项。3.3期刊论文类别目前中国知网的期刊论文的类别是依据《中国图书馆分类法》进行人工标引获得的分类号。《中国图书馆分类法》共分5个基本部类、22个大类。采用汉语拼音字母与阿拉伯数字相结合的混合号码,用一个字母代表一个大类,以字母顺序反映大类的次序,在字母后用数字作标记。为适应工业技术发展及该类文献的分类,对工业技术二级类目,采用双字母。例如:分类号TP391代表信息处理(信息加工)。4改进BP神经网络分类器传统BP网络具有思路清晰、结构严谨、工作状态稳定、可操作性强等特点,并且由于隐层节点的引入,使得一个三层的非线性网络可以以任意精...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?