一个基于概念的中文文本分类模型

均是精品,欢迎下载学习!!!一个基于概念的中文文本分类模型苏伟峰李绍滋厦门大学计算机科学系厦门361005摘要本文提出一个电子文档的自动分类的模型:基于《知网》之上,经过对文档的关键词的抽取和排岐,进而得到关键词的概念,再对关键词的概念进行综合而得到该文本的所属的类别,实验证明该模型有较好的效果。关键词文本分类概念《知网》全信息一、引言在过去几年中随着科学技术的迅猛发展,特别是随着因特网的快速发展,各种信息情报激增,特别是网上信息浩如烟海,人们可能通过因特网能很快地得到大量的资料,因此如何对所获得资料进行科学有效地管理是摆在人们面前一个不可回避而又很有意义的问题对资料进行管理一个很常见的方法就是对它们系统地进行分类。显然,用人工对文本材料进行分类的过程是通读所有文章,然后再对它们进行归类保存。当然这需要许多具有丰富经验和专门知识的分类人员做大量的工作,显然这个过程具有周期长、费用高、效率低的特点,在信息爆炸的今天很难满足实际需要,如何运用计算机进行自动分类成了许多人的研究方向。一般而言,文本分类方法可分为两个类型:基于外延方法的分类方法:这种类型的分类方法不关心文本的语义,根据文本的外在特征进行分类。最常见的方法是基于向量空间模型(VectorSpaceModule)的方法,该方法的思想是:把文本表征成由特征项构成的向量空间中的一个点,通过计算向量之间的距离,来判定文本之间的相似程度。采用该模型的文本分类方法一般步骤是:先通过对训练语料的学习对每个类建立特征向量作为该类的表征,然后依次计算该向量和各个类的特性向量的距离,选取距离大小符合域值的类别作为该文本所属的最终类别。这种方法有了很多的应用,但是其不足之处也是显而易见的:1.正确率一般只能达到80%,且很难进一步向上发展2.对于不同体材的文本,则其归类正确率更是大打折扣。基于语义的分类方法:这种类型的分类方法采用全部或部份理解文本的语义而进行归类。主要可以分为以下三类:1.基于词的归类技术文本的语义是基于概念之上的,而词是概念的基本构成单位,从文本抽取出能反映出该文本的关键词,通过对关键词归类而进行归类,显然这种方法产生的归类其实并不是真正通过语义来进行归类,属于较早采用的技术。2.基于知识的归类技术基于知识库的归类技术有一个明确的知识库,知识的表示方法主要有规则库、语义模型或格框架等。基于知识的分类技术的显著特点是需要手工建造知识库,且建造的知识库领域性极强,移植非常困难。最近的研究工作表明,在一定的领域内,基于知识库的系统能够进行快速准确的分类。3.基于概念的归类技术基于概念的归类技术是一种介于词的分类技术和基于知识的归类技术之间的技术,它只抽取那些对文本分类有用的概念,它抽取短语周围的文本和潜在的语义概念进行文本类别的确定。基于概念的归类技术并不需要理解全文的语义,这在当前对自然语言的理解水平尚处于初级阶段的现状来说无疑是一个较好的方法。本文提出了一个中文文本自动分类模型,它是基于概念的归类技术,建立在《知网》基础之上的,从文章中抽取出关键词,利用词产生的概念对全文进行分析,然后根据概念的类别综合进行分类。二、知网简介《知网》是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念之间以及概念所具有的属性之间的基本内容的常识知识库。《知网》认为世界上的一切事件都在特定的时间和空间内不停地运动和变化,它们通常是从一种状态变化到另一种状态,并通常通过其属性来体现。《知网》概括了八百多个事件义原,通过义原的组合来标注各种各样的单纯的或复杂的概念,以及各个概念与概念之间、概念的属性与属性之间的关系。相对来说,新词虽然层出不穷,但义原的增加却极少,显然,从理论上说,处理好了这八百多个义原就可以实现对文本的分类。《知网》使用义原的组合来标注各种各样的单纯或复杂的概念,其标注时按其特征的重要性从大到小顺序来定义概念,但在文本分类的过程中,我们发现许多概念的主要特征大部分无法定义其类别,而且其特性倒不是我们所关心的。所以我们定义一个概念的第一个能够归类的特性为...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?