中文问答系统中问题理解算法探究

中文问答系统中问题理解算法探究摘要:问答系统能够用准确、简洁的答案回答用户提出的问题。问题理解是其首要的分析工作。本文应用了基于规则的问题分类方法,提出了一种基于维基百科关键词扩展和基于同义词的关键词扩展相结合,并对问题中的关键词进行重要性标识的问题理解方法。实验结果证明,该方法对提高问题分类的准确率有较好的效果。关键词:问答系统问题理解问题分类信息提取中图分类号:TP391.1文献标识码:A文章编号:1007-9416(2012)12-0101-021、引言自动问答系统是基于信息检索系统的高级形式,用户用自然语言描述的句子作为检索式,返回结果为用户所需问题的直接答案。问答系统主要包括三个部分:问题理解,文档检索和答案抽取。问题理解模块对问题进行分类的同时提取出关键信息;信息检索模块根据问题理解部分提供的关键词进行检索,找到相关的文本内容;答案抽取模块的主要工作是对检索的结果进行过滤,抽取问题的精确答案,而后对候选答案按相应的算法进行排序[1]O其中,问题理解对自动问答系统的整体性能至关重要。首先,对用户所提问题分类,对于不同类型的问题,定制对应的信息检索和答案抽取规则;其次,分析问题,提取出问题的关键词。问题分类通常采用基于规则的问题分类方法和基于统计的分类方法[2]。基于规则的方法在问题的类别定义好后,相应的规则比较容易定制,因此分类的效果较好。还因为不需要训练就能够直接分类,属于模式匹配的范畴,所以分类的效率相对较高;基于统计的问题分类方法主要有DellZhang等人提出的利用treekernel提取特征的支持向量机(SVM)算法[3],将问题划分为6大类,分类精度达到了90.0%o还有将词和词性作为特征的贝叶斯分类模型问题分类方法⑷。IBMTREC-9system利用结合词法和句法特征的最大炳模型[5],对3300个标注好的问题进行了训练,测试结果达到了90.95%的准确率。本文应用了基于规则的问题分类方法,在此基础上提出了一种基于维基百科关键词扩展和基于同义词的关键词扩展相结合,以及对问题中的关键词进行重要性标识的问题理解方法。2、问题分类问题类别的数量太多会造成类别间的差别过小,使得处理过程混淆而将把问题的类别分错。如果问题类别的数量太少又覆盖不了所有的问题。本文结合实验比较将问题的类别分为9个大类(表l)o根据上述拟定的问题类别本文采用如下分类方法:首先归纳出9个问题类别中特有的类别词,按照其主要程度给予其不同的权重,最重要的权重为1,次要的权重为0.5,剩余的权重为0.2o然后对问题分词并进行词性标注且去除问题中的停用词。根据关键词匹配的方法,将其权重值累加,计算出问题分属各类别的权重的和值。最后取权重的和值最高的问题类别,若和值大于事前设定好的阈值,则判定问题属于该类别,否则把该问题归为事件类。问题分类的流程图如下所示:3、问题的关键信息提取关键信息提取是问题理解模块的重心,本文对问题中关键信息提取采用了基于维基百科关键词扩展和基于同义词的关键词扩展相结合,以及对问题中的关键词进行重要性标识相结合的算法:(1)对分过词且标注好词性的问题进行停用词过滤。(2)过滤掉问题中出现的比如“请问”,“请比较”等一些常见的客套词。(3)问题的关键信息一般为实词,因此需要根据词语的词性过滤虚词,仅仅留下名词,形容词,动词,数量词,副词,时间词。(4)将过滤后的剩余词进行重要性标注,按照重要性分为两类,第一类是必须包含词:是在信息检索和答案抽取环节中必须要出现的关键词,如果缺少这类词就会失去问题的本意。例如,问题“瓦良格号什么时候服役?”中,'‘瓦良格号”就非常重要,若缺失了它,其它的服役时间根本不是我们所关心的问题。第一类词主要有名词(一般是地名,人名,专有名词和机构名)构成,我们将其用“M”标记。第二类是去除第一类词后词,这些词没有第一类词关键,检索出的结果中也可不包含这类词。我们将其用“S”来标记。第二类词主要起修饰的作用,通常为形容词,副词,数量词,表示时间的词等。(5)对经过重要性标注的关键词进行同义词扩展。因为往往问题和答案中会出现意义相同的不同词,比如'‘电脑”和“计算机”就是一对同义词,有...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?