基于NLPTF技术主观题自动评测系统探究

基于NLP—TF技术主观题自动评测系统探究摘要:主观题的自动评测一直制约着网络考试系统的发展。基于NLPTF技术在学生答案和标准答案进行相似性检测之前去除停用词、引入专业术语词典,为不同的关键词赋予不同的权重以体现语义的重要性,保证分词结果的科学合理化,并利用空间向量夹角余弦值评估学生答案和标准答案的相似度。实验证明,该方法的准确率有所提高,达到了预期的效果。关键词:NLPTF技术;主观题;自动评测;自动阅卷;网络考试中图分类号:TP319文献标识码:A文章编号:1672-7800(2013)001-0082-020引言目前,主观题的自动批改算法很多,比较简单的是将学生答案和标准答案做一个关键字的匹配,编辑距离算法计算出两者的文本相似性,但由于汉语的复杂性,导致这种方法的精确度受到极大的影响。基于NLPTF技术在学生答案和标准答案进行相似性检测之前去除停用词、引入专业术语词典,为不同的关键词赋予不同的权重以体现语义的重要性,保证分词结果的科学合理化,并利用空间向量夹角余弦值评估学生答案和标准答案的1.1TFIDF算法相似度,以期能在主观题自动批改准确率上有所突破。1研究现状TFIDF(TermFrequencyInverseDocumentFrequency)是一种用于资讯检索与文本挖掘的常用加权技术。TFIDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。在一份给定的文件里,词频指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否)。对于在某一特定文件里的词语ti来说,它的重要性可表示为:tfi,j=ni,jl2Zknk,j以上式子中ni,j是该词在文件dj中的出现次数,而分母则是在文件dj中所有字词的出现次数之和。1.2向量空间模型在向量空间模型中,文本泛指各种机器可读的记录。用D表示,特征项是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,Tn),其中Tk是特征项,lWkWN。例如标准答案中有a、b、c、d4个特征项,那么标准答案就可以表示为D(a,b,c,d)o对含有n个特征项的答案而言,通常会给每个特征项(即关键词)赋予一定的权重表示其重要程度。即D=D(Tl,Wl;T2,W2;…;Tn,Wn),简记为D=D(Wl,W2,…,Wn),我们把它叫做标准答案D的向量表示。其中Wk是Tk的权重,l<k<No在上面那个例子中,假设a、b、c、d的权重分别为30,20,20,10,那么该文本的向量表示为D(30,20,20,10)o在向量空间模型中,标准答案D1和学生答案D2之间的相似性Sim(DI,D2)常用向量之间夹角的余弦值表示,公式为:Sim(DI,D2)=cose=Enl2k=lWlkXW2kl2(Enl2k=lW21k)(Lnl2k=lW22k)其中:Wlk.W2k分别表示答案中DI和D2第k个特征项的权值,lWkWN。例如D1的特征项为%b,c,d,权值分别为30,20,20,10,学生答案D2的特征项为弘c,d,e,权值分别为40,30,20,10,则D1的向量表示为D1(30,20,20,10,0),D2的向量表示为D2(40,0,30,20,10),则根据上式计算出来的标准答案D1与学生答案D2相似性为0.86o2算法设计主观题具有答案不唯一性、模糊性等特点,要使系统完全按照人的思维准确理解评价主观题答案还存在一定的难度。通过当前分词系统结合专业术语词典将标准答案和学生答案中的文本进行分词处理。提取出各自的关键词,对于学生答案来说也即得分点。将两者的答案作归一化处理在本算法中成为标准数组。根据标准化数组的元素统计每个词在标准答案出现的次数并计算其频率最终得到标准答案的空间向量D1;将学生答案做同样处理得到学生的空间向量D2,计算两者夹角余弦值即两者相似性。本算法处理流程如图1所示。由于真实阅卷老师是根据得分点加语言描述连贯性综合给分,这就使得分词技术成为主观题自动评测的不可缺少的步骤,在本算法中对分完的词进行了多种处理使得分词结果合理。在计算词频时,对一些长词以及关键词进行加权处理,体现了得分点阅卷思想。说...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?