收稿日期:2008-09-18修回日期:2008-10-28基金项目:山东省中青年科学家科研奖励基金项目个性化智能商务服务中心的谈判技术研究(编号:2006BS01021。作者简介:赵中英,女,1983年生,博士研究生,研究方向为人工智能;梁永全,男,1967年生,教授,博士生导师,研究方向为人工智能、电子商务;纪淑娟,女,1977年生,博士,硕士生导师,研究方向为人工智能、电子商务;李超,男,1984年生,硕士研究生,研究方向为人工智能。文本分类中改进的特征加权方法*AModifiedFeatureWeightingApproachinTextClassification赵中英梁永全纪淑娟李超(山东科技大学信息科学与工程学院青岛266510摘要针对科研论文往往具有统一的结构,将词项的位置信息考虑在内,给出一种新的词项特征加权方法。利用AdaBoosting分类算法进行实验,结果表明该方法在准确率、查全率和F-Measure方面都具有更好的文本分类性能。关键词文本分类预处理特征加权TP182文献标识码A1002-1965(200904-0147-03文本分类是指基于文本内容将待定文本划分到一个或多个预先定义的类中。一般来讲,文本分类需经过四个步骤:获取训练文本集;选择分类方法并训练分类模型;用训练的分类模型对待分类文本进行分类;根据分类结果评价分类模型。文本分类的效果一般与数据集本身的特点有关。目前普遍认为不存在某种方法适用于各种特点的数据[1~2]。针对科研论文具有统一的模式或结构,特征词项所处的位置往往更能反映该文本所属的类别,我们引入词项的位置信息,对传统的TF-IDF特征加权方法进行改进,并用实验对改进后方法的分类性能进行评价。文章第一节介绍几种主要的文本分类方法;第二节对文本预处理的主要步骤进行阐述;第三节引入特征词的位置信息,给出改进的特征加权方法;第四节设计实验,对改进的特征加权方法的分类性能进行评价。1已有的文本分类方法1.1朴素贝叶斯方法朴素贝叶斯方法是最早用于文本分类的分类器算法,概率分类器基于贝叶斯理论来计算待定文档dj与已知各类的条件概率,用P(ci|dj来表示:P(ci|dj=P(cP(d|cP(dj其中P(dj对计算结果无影响,因此可以不计算。贝叶斯方法的基本假设是词项之间的独立性,于是P(dj|ci=rk=1P(wkj|ciP(ci和P(wkj|ci可用以下公式来估算:P^(c=ci=nigP^(wkj|ci=1+nkir+k=1nki其中,ni为类ci中的文档数目,nki为词项tk在类ci中出现的词频总数。基于上述假设的概率分类器一般称为贝叶斯分类器。贝叶斯分类器是应用比较广泛的文本分类器,在很多文献中都有出现[3~4]。贝叶斯分类器易于理解,计算简单,分类效果基本能满足要求,但其关于词项独立性的假设受到很多研究者的质疑[5]。1.2基于实例的文本分类基于实例的分类器又称懒惰学习系统,这种方法不对类别建立明确的、直接的表达,而是依赖于训练集文档的分类来推断待定文档的类别[6~8]。最常见的基于实例的分类器为KNN分类器,其基本思想是:给定一个测试文档,系统在训练集中查找离它最近的k个邻居,根据这些邻居的分类来给该文档的候选分类评分,并用邻居与文档dj之间的相似度来加权。文档之间的相似度衡量可用基于向量的评价和概率评价来完成,其阈值k的确定一般通过实验的方法来进行,即通过校验集来确定该值。1.3支持向量机(SVM支持向量机(SupportVectorMachines,SVM由Vapnik在1995年提出,用于解决二分类模式识别问题[9]。Joachims最早将SVM第28卷第4期2009年4月情报杂志JOURNALOFINTELLIGENCEVol.28No.4Apr.2009方法用于文本分类[8]。支持向量机集成了降维和分类,它将文本分类问题变为一系列二分类问题。SVM方法有很坚实的理论基础,SVM训练的本质是解决一个二次规划(QP问题,得到的是全局最优解,这使它有着其他统计学习技术难以比拟的优越性。SVM分类器的文本分类效果很好,是最好的分类器之一。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数;另外SVM训练速度极大地受到训练集规模的影响,计算开销比较大,针对SVM的训练速度问题,研究者提出了很多改进方法,包括Chunking方法[10]、Osuna算法[11]以及SMO算法[12]。1.4神经网络神经网络(NeuralNetwork,NNet技术是人工智能中的成熟技术。神经网络由一组神经元组成,其输入单元通常代表词项,输出单元表示类别或类别兴趣度,神经元的连接权重表...