第25卷第2期2007年6月广西师范大学学报:自然科学版JournalofGuangxiNormalUniversity:NaturalScienceEditionVol.25No.2Jun.2007收稿日期:2006212215基金项目:重庆市自然科学基金资助项目(CSTC2006BB2021作者简介:张玉芳(1965—,女,上海人,重庆大学副教授,硕导。一种改进的贝叶斯文本分类方法张玉芳,陈剑敏,熊忠阳(重庆大学计算机学院,重庆400030摘要:朴素贝叶斯分类(naiveBayes“”有一个独立性假设:给定一个实例的类标签,实例中的每个属性的出现都独立于实例中其他属性的出现,而在实际应用中这种条件并不易满足,另外由于文本的特殊性,相关的特征项可能会产生新的语义信息。因此在训练文本时,对特征选择后产生的特征集用一种可行的方法考察它们之间的相关性,然后对相关程度高的特征进行合并处理。实验数据表明,这个改进的方法能提高朴素贝叶斯的算法精确度。关键词:文本分类;独立性假设;相关性:TP392文献标识码:A:100126600(2007022*******文本分类的目标是在分析文本内容的基础上给文本分配一个或者多个比较合适的类别,文本分类的过程是对训练集中文档的内容进行分析,构造一个分类器,用这些分类器对新文档分类,对文本分类的研究大大缩小信息检索的范围,增强检索对象与检索要求的相关性[1]。目前较为著名的文本分类方法有Bayes方法、k2NN方法、神经网络方法、决策树方法、支持向量机算法等,其中朴素贝叶斯方法是目前公认的一种简单有效的分类方法,它是一种基于概率的分类方法。1朴素贝叶斯分类目前大多数分类方法是基于向量空间模型的[2],在该模型中,每个文档可看作词的序列,文档中的词称为特征,在经过切分词、去除停用词、截取词干等预处理后得到一个特征集合,还需要进行特征选择,找出能最好地代表一个文档或者类别的特征来参与分类计算,这样文档表示为由特征组成的特征矢量。1.1朴素贝叶斯分类器及独立假设贝叶斯文本分类模型是一种典型的基于统计方法的分类模型[3],它利用先验信息和样本数据信息来确定事件的后验概率。令论域U=(w1,w2,w3,…,wn,C是离散随机变量的有限集,其中w1,w2,w3,…,wn为特征项集,类变量C的取值范围为(c1,c2,c3,…,cl,一个文档di表示为特征向量(w1,w2,w3,…,wn,则di属于类cj的概率可表示为:p(cjw1,w2,w3,…,wn=p(w1,w2,w3,…,wncj・p(cjp(w1,w2,w3,…,wn。(1根据概率的链规则:p(w1,w2,w3,…,wncj=7ni=1p(wiw1,w2,…,wi-1,cj,(2朴素贝叶斯分类模型中的属性独立假设假定所有的属性都是相互条件独立,即有:p(wiw1,w2,…,wi-1,cj=p(wicj,(3结合公式(2、(3,公式(1则变为:p(cjw1,w2,w3,…,wn=7ni=1p(wicj・p(cjp(w1,w2,w3,…,wn。(4根据贝叶斯最大后验准则,给定某一待分类文本di=(w1,w2,w3,…,wn,贝叶斯分类器选择使后验概率p(cjw1,w2,w3,…,wn最大的类作为该文本的类标签。朴素贝叶斯的独立性假设提高了分类的效率,但在实际应用中这种独立性假设是不太可能满足的,因此改进朴素贝叶斯文本分类器,使之在独立性假设不能满足的情况下具有较高的分类精度和分类效率,是值得研究的领域。Kononenko的semi2naive分类器[4]将属性集分割成若干个不相交的属性组,假设在不同组中的属性之间是相互独立的,而同一属性组内的各属性相互关联,但这样大大增加学习的开销,对于特征项众多的文本分类并不现实。1.2TAN树扩展朴素贝叶斯分类方法TAN(treeaugmentnaiveBayes是由Friedman等人提出的一种树状结构模型[5,6],它将贝叶斯网络的部分表示依赖关系的能力与朴素贝叶斯方法的简易性结合。在TAN结构中,类变量C是根,没有父结点,特征项要不以类结点作为其父结点,要不以一个其他的特征项作为其父结点,这时这个其他的特征项只能以类结点作为父结点。因此p(wiw1,w2,…,wi-1,cj=p(wicj(特征项wi只有类结点作为父结点或者p(wiw1,w2,…,wi-1,cj=p(wiwp,cj(特征项wi以一个其他特征项wp作为父结点,即特征项wi对分类的影响依赖于特征项wp,此时wp只能以类变量作为父结点,wp∈{w1,w2,…,wi-1},TAN分类模型具有较好的综合性能,体现了学习效率与分类精度之间的一种适当的折衷。2本文的改进方法相对于朴素贝叶斯,semi2naive分类器和TAN方法在一定程度上克服了基于属性独立性假设的限制,但实现相对复杂并...