精品语音关键词检测中置信测度方法研究综述

语音关键词检测中置信测度方法研究综述语音关键词检测中置信测度方法研究综述摘耍:语音关键词检测是指在语音文档中寻找并定位特定的词的技术,输入所需查询的关键词通常是以文本的形式给出。作为语音文档分析等技术的核心部分,语音关键词检测始终是语音处理领域研究的热点。置信测度计算是关键词检测技术的重要组成部分,它对确认正确检出的关键词及拒绝误识都起到决定性作用,置信测度的优劣对检测系统性能有着直接的影响。本文介绍并总结了语音关键词检中测置信测度方法的研究工作,提供了详尽的参考文献。关键词:语音关键词检测;置信测度;词表外词屮图分类号:TP391文献标识码:A文章编号:2095-2163(2014)02-AnOverviewofConfidenceMeasureforSpokenTermDetectionLTHaiyang,HANJiqing,ZHENGGuibin,ZHENGTieran(SchoolofComputerScienceandTechnology,HarbinInstituteofTechnology,Harbin150001,China)Abstract:Spokentermdetection(STD)isthetaskwhichaimstolocatealloccurrencesoftermsqueriedbyauserinlargeaudioarchives,andthetermsareusuallyintheformatoftext・STDisoneofthekeycomponentsforspokendocumentanalysis,andSTDisalwaysafocusinthefieldofspeechprocessing.ConfidencemeasureisacrucialpartofSTD,anditplaysanimportantroleinrejectingfalsealarms.ThemeritofconfidencemeasurecanaffecttheperformanceofSTDdirectly.ThispaperintroducesandsummarizestheresearchworkofconfidencemeasureforSTD,andprovideswithplentyofreferences・Keywords:SpokenTermDetection;ConfidenceMeasure;0ut-of-vocabularyTerm0引言近年来,语音识别领域取得了很多成果,但真正要完成一个能够处理自然语言、同时又不受环境和领域限制的语音识别系统,就现有的技术水平来说是非常困难的。从人类感知的角度来讲,要听懂一段话,并不一定要听懂每个字和词。大多数情况下,只要听懂一些关键的词,比如句子中的实词,根据这些关键词部分就可以推断出该段话的语义。这种词的检测技术只关注用户所关心的信息,对其他部分和句子中的语法不作过多的要求。从说话者的角度来讲,对关键部分的发音通常是完整的和吐字清晰的。因此,从目标语音屮检测词比识别整个句子的发音要相对容易。所以在人机交互过程中,语音关键词检测技术比连续语音识别更具有实用价值。上述这些领域都依赖于某种能对相关词准确检测的技术,这种技术就是语音关键词检测技术。语音关键词检测(spokentermdetection,简称STD)是指在语音文档中寻找并定位特定的诃的技术,输入所需查询的关键词通常是以文本的形式给出[1]。语音关键词检测技术作为语音文档分析等技术的核心部分,始终是语音处理领域研究的热点。由于语音关键词检测结果中不可避免地存在着大量误报,即某些被检测出的候选不是真正的关键词,因而釆用有效的置信测度技术对结果进行确认以拒绝误报就显得尤为重要。候选的置信测度是衡量候选可信程度的手段,有效的置信测度应能在检出正确的关键词时其值尽可能高,而在误识吋其值尽可能低。理想情况下,全部正确检出关键词的置信测度应该高于所有误识的置信测度。语音关键词置信测度有着非常广泛的应用前景,具体表现在:(1)置信测度计算是关键词检测技术的重要组成部分,对确认正确检出的关键词及拒绝误识都起到决定性作用,置信测度的优劣对检测系能有着直接的影响;(2)置信测度在语音文档信息检索领域中扮演重要的角色,可以用于计算文档与关键词的近似程度(3)置信测度在语音文档主题检测及分类中也起着重要作用,有效的置信测度可以使得对语音文档中词频估计更为准确,从而整体提升主题检测及分类的性能。综上所述,开展对关键词检测中置信测度的研究不仅具有垂要的理论与应用意义,而且具有深远的社会效益和经济效益。1关键词检测中置信测度方法的研究工作通常将关键词检测按照功能分为词表内(in-vocabulary,INV)词检测和词表外(out-of-vocabulary,00V)词检测两个部分。这是由于利用传统的大词表连续语音识别(largevocabularycontinuousspeechrecognition,LVCSR)的关键词检测系统很难...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?