文本分类中改进的特征加权方法_图文

收稿日期:2008-09-18修回日期:2008-10-28基金项目:山东省中青年科学家科研奖励基金项目个性化智能商务服务中心的谈判技术研究(编号:2006BS01021。作者简介:赵中英,女,1983年生,博士研究生,研究方向为人工智能;梁永全,男,1967年生,教授,博士生导师,研究方向为人工智能、电子商务;纪淑娟,女,1977年生,博士,硕士生导师,研究方向为人工智能、电子商务;李超,男,1984年生,硕士研究生,研究方向为人工智能。文本分类中改进的特征加权方法*AModifiedFeatureWeightingApproachinTextClassification赵中英梁永全纪淑娟李超(山东科技大学信息科学与工程学院青岛266510摘要针对科研论文往往具有统一的结构,将词项的位置信息考虑在内,给出一种新的词项特征加权方法。利用AdaBoosting分类算法进行实验,结果表明该方法在准确率、查全率和F-Measure方面都具有更好的文本分类性能。关键词文本分类预处理特征加权TP182文献标识码A1002-1965(200904-0147-03文本分类是指基于文本内容将待定文本划分到一个或多个预先定义的类中。一般来讲,文本分类需经过四个步骤:获取训练文本集;选择分类方法并训练分类模型;用训练的分类模型对待分类文本进行分类;根据分类结果评价分类模型。文本分类的效果一般与数据集本身的特点有关。目前普遍认为不存在某种方法适用于各种特点的数据[1~2]。针对科研论文具有统一的模式或结构,特征词项所处的位置往往更能反映该文本所属的类别,我们引入词项的位置信息,对传统的TF-IDF特征加权方法进行改进,并用实验对改进后方法的分类性能进行评价。文章第一节介绍几种主要的文本分类方法;第二节对文本预处理的主要步骤进行阐述;第三节引入特征词的位置信息,给出改进的特征加权方法;第四节设计实验,对改进的特征加权方法的分类性能进行评价。1已有的文本分类方法1.1朴素贝叶斯方法朴素贝叶斯方法是最早用于文本分类的分类器算法,概率分类器基于贝叶斯理论来计算待定文档dj与已知各类的条件概率,用P(ci|dj来表示:P(ci|dj=P(cP(d|cP(dj其中P(dj对计算结果无影响,因此可以不计算。贝叶斯方法的基本假设是词项之间的独立性,于是P(dj|ci=rk=1P(wkj|ciP(ci和P(wkj|ci可用以下公式来估算:P^(c=ci=nigP^(wkj|ci=1+nkir+k=1nki其中,ni为类ci中的文档数目,nki为词项tk在类ci中出现的词频总数。基于上述假设的概率分类器一般称为贝叶斯分类器。贝叶斯分类器是应用比较广泛的文本分类器,在很多文献中都有出现[3~4]。贝叶斯分类器易于理解,计算简单,分类效果基本能满足要求,但其关于词项独立性的假设受到很多研究者的质疑[5]。1.2基于实例的文本分类基于实例的分类器又称懒惰学习系统,这种方法不对类别建立明确的、直接的表达,而是依赖于训练集文档的分类来推断待定文档的类别[6~8]。最常见的基于实例的分类器为KNN分类器,其基本思想是:给定一个测试文档,系统在训练集中查找离它最近的k个邻居,根据这些邻居的分类来给该文档的候选分类评分,并用邻居与文档dj之间的相似度来加权。文档之间的相似度衡量可用基于向量的评价和概率评价来完成,其阈值k的确定一般通过实验的方法来进行,即通过校验集来确定该值。1.3支持向量机(SVM支持向量机(SupportVectorMachines,SVM由Vapnik在1995年提出,用于解决二分类模式识别问题[9]。Joachims最早将SVM第28卷第4期2009年4月情报杂志JOURNALOFINTELLIGENCEVol.28No.4Apr.2009方法用于文本分类[8]。支持向量机集成了降维和分类,它将文本分类问题变为一系列二分类问题。SVM方法有很坚实的理论基础,SVM训练的本质是解决一个二次规划(QP问题,得到的是全局最优解,这使它有着其他统计学习技术难以比拟的优越性。SVM分类器的文本分类效果很好,是最好的分类器之一。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数;另外SVM训练速度极大地受到训练集规模的影响,计算开销比较大,针对SVM的训练速度问题,研究者提出了很多改进方法,包括Chunking方法[10]、Osuna算法[11]以及SMO算法[12]。1.4神经网络神经网络(NeuralNetwork,NNet技术是人工智能中的成熟技术。神经网络由一组神经元组成,其输入单元通常代表词项,输出单元表示类别或类别兴趣度,神经元的连接权重表...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?