基于文本相似度的自动文摘评价方法

基于文本相似度的自动文摘评价方法摘要:讨论了现有的自动文摘评价方法,并具体分析了内部评价方法的缺陷,由此提出了基于文本相似度的自动文摘评价方法。同时,通过基于VSM(支持向量机)相似度和基于语义相似度两种相似度方法来比较评价方法的性能。实验表明,基于相似度的方法实现简单、效果良好,是一种更接近自然模型的评价方法。??关键词:自动文摘;评价方法;相似度;向量空间模型:TP391文献标志码:A:1001-3695(2007)08-0097-03随着科技的进步和Internet的发展,自动文摘以其简洁精练的特点越来越受到人们的重视。在最近二十年中,国内外已有很多效果不错的自动文摘系统,其运用领域也是多种多样的。然而,对于如何更有效地评估系统的性能却没有得到充分的关注,现在还没有一种让大家普遍公认的客观评价方法。这也在一定程度上制约了自动文摘的发展。国内外一些会议曾对当前的自动文摘系统进行了综合评测。例如国外的文本理解会议中(duc.nist)就采用外部评价方法来评测各个科研机构研究的自动文摘系统;我国2004年度汉语自动文摘评测是完全采用人工打分方式。??1传统的评价方法与问题??1.1传统评价方法??目前,自动文摘的评价方法大致分为两类[1]:a)内部评价(intrinsic)方法,通过直接分析摘要的质量来评价文摘系统,主要采用准确率、召回率等性能指标;b)外部评价(extrinsic)方法,一种间接的方法,通过测试文摘系统完成某一特殊任务的效果来评价文摘系统。两种评价方法都有其优势和劣势,这也是导致自动文摘没有一个客观公认方法的主要原因。外部评价方法需要具体设计任务的方式和评价,往往很耗时间和人力,而且每次评价只针对一个特定任务,局限性太大,只适用于大规模地对多个文摘系统进行综合评价。内部评价方法则需要与理想文摘进行比较,而理想文摘的获取较难,一般都请几位专家给定,但专家往往很难达成一致的意见。这种方法的主观性太强,但其方法简单、容易实现,适用于研究者对自己的文摘系统进行评价。??由于外部评价方法主要是针对大规模文摘系统的评价,不适合于研究者们对文摘方法的改进。本文就主要针对内部评价进行讨论。??1.2内部评价的缺陷??内部评价方法[2]是按信息的覆盖面和正确率来评价文摘质量的,通常采用与理想文摘相比较的方法。这种评价方法源于信息抽取技术。它将机器摘要与理想文摘在召回率(recall)、准确率(precision)等几个指标上进行比较,这种评价方法简称为P/R方法。召回率和准确率的计算公式[3,4]如下:??现在所采用的理想文摘一般都是由专家对原文进行抽取得到的。为了避免一个专家抽取摘要时过多地引入个人观点,通常是请多个专家为同一篇文章进行手工摘要,然后对他们所得到的摘要句子集合进行交集运算,或是取大多数意见构成理想文摘句子集合。然而,专家的一致性意见是很低的[5,6]。这主要有两个原因:当两个句子大约等价时,专家很可能随机选择其中一个进入摘要句;专家对文章主要内容意见不一致,则选择的摘要句也不相同。这就导致了这种摘要方式具有很强的主观性和随机性,其细微差别都将对后面的评价产生巨大影响。??b)P/R的缺陷。从准确率和召回率公式中可以发现,它采用的是布尔值来判断一个句子。也就是说,机器摘要与理想文摘的句子是同一句话就为真;否则为假。下面通过一个简单的实例来具体说明P/R方法存在的问题。??取一篇题为“关于学习科技知识”的短小议论文作为实例,它共有10个句子。本文按压缩比为20%提取摘要句子,其理想文摘和机器摘要获取的句子如下:??理想文摘:“②当今时代,科技进步对一个国家经济社会的发展越来越具有决定性的作用。③我们必须坚定不移地实施科教兴国战略,真正把加速科技进步放在经济社会发展的关键地位,尽快形成自己的科技创新体系,着力促进科技成果切实转化为现实生产力。”??机器摘要(系统1):“②当今时代,科技进步对一个国家经济社会的发展越来越具有决定性的作用。⑤我们学习科技知识,首先是要通过这种学习把握世界发展的大势,加强做好工作的紧迫感和责任感。”??机器摘要(系统2):“①科学技术是第一生产力。②当今时代,科技进步对一个国家经...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?