中英双语混合语音识别研究

第20卷第4期2008年8月重庆邮电大学学报(自然科学版)JournalofChongqingUniversityofPostsandTelecommunications(NaturalScienceEdition)Vol.20No.4Aug.中英双语混合语音识别研究张晴晴,潘接林,颜永红摘要:介绍了针对歌曲检索中出现的中英混合现象所开发的中英双语识别系统。在双语混合语音识别中,主要面临的2个问题:①在保证双语识别率的前提下控制系统的复杂度;②有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法(TCM),并将该方法与基于声学似然度准则的聚类方法进行了比较。实验结果表明:利用TCM进行音素聚类的识别性能优于基于声学似然度音素聚类的性能,最终得到的中英双语识别系统在纯英文测试集上的短语错误率(PER)相对基线单英文识别系统下降7.19%;在双语混合测试集上PER相对基线混合模型下降13.78%;同时在纯中文测试集上保持了基线单中文识别系统的性能。关键词:双语识别;聚类算法;自适应中图分类号:TN93文献标识码:A文章编号:16732825X(2008)0420391206DevelopmentofaMandarin2EnglishbilingualspeechrecognitionsystemZHANGQing2qing,PANJie2lin,YANYong2hongAbstract:TheMandarin2EnglishbilingualspeechrecognitionsystemwhichhasbeendevelopedfortheMandarin2Englishphenomenoninsongretrievalisintroduced.Themaindifficultiestohandlethebilingualspeechrecognitionforrealworldapplicationarefocusedontwoaspects:thefirstistobalancetheperformanceoninterandintra-sententiallanguageswitc2hingandtoreducethecomplexityofthebilingualspeechrecognitionsystem;thesecondistoeffectivelydealwiththema2trixlanguageaccentsinembeddedlanguage.Inordertoprocesstheintra2sententiallanguageswitchingandreducethea2mountofdatarequiredtorobustlyestimatestatisticalmodels,insteadofusingtwoseparatemonolingualmodelsforeachlan2guage,acompactsinglesetofbilingualacousticmodelderivedbyphonesetmergingandclusteringisdeveloped.Hence,anovelTwo2passphoneclusteringmethodbasedonConfusionMatrix(TCM)ispresentedandcomparedwiththelog2likeli2hoodmeasuremethod.ExperimentstestifythatTCMcanachievebetterperformance.Thephraseerrorrate(PER)ofMESRSforEnglishutteranceswasreducedby7.19%relativelycomparedtothebaselinemonolingualEnglishsystemwhilethePERonMandarinutteranceswascomparabletothatofthebaselinemonolingualMandarinsystem.Theperformancefor信成为越来越普遍的现象。这为语音识别技术带来了新的挑战。目前,双语识别的研究工作取得了显著进展。文献[1]和[2]分别描述了英2德双语识别以及斯洛文尼亚2克罗地亚双语识别系统。在文献[3]中,S.Yu等人研究了中英双语识别系统。这些研究的共同点在于,实验测试集都是由相应母语说话人(nativespeakers)录制的标准发音单语种语句(monolingualutterances)构成。虽然上述双语系统0引言随着现代社会信息的全球化,双语以及多语通收稿日期:2008203217基金项目:国家高技术研究发展计划(“863”计划,2006AA010102,2006AA01Z195);国家重点基础研究发展规划项目计划(“973”计划,2004CB318106);国家自然科学基在这些标准发音测试集上都体现出不错的性能,但在非母语(non2native)测试集上性能严重下降双语识别系统通常会面临这样一个问题:将原用语(matrixlanguage)作为母语的使用者不可能再将插入语(embeddedlanguage3)作为自己的母语[4]。因此,提高非母语发音的插入语识别性能是双语识别系统可实用化的关键[5]。非母语识别的研究方向通常分两类:发音建模和声学建模。在发音建模中,文献[6]提出了字典建模方法用于提高非母语语音识别性能。同样,文献[7]使用联合发音建模方法(jointpronunciationmodeling)将非母语发音规则添加入字典。这些都采用数据驱动方法获取多发音字典,但在词错误率(WER)上仅体现出有限的下降。在声学建模中,文献[8]和[9]...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?