多话者环境下说话人辨识听觉线索研究

多话者环境下说话人辨识听觉线索研究罗海风龙长才华中科技大学物理学院,武汉,430074AuditoryCuingofspeakerdiscriminationinamulti-talkerenvironmentLuoHai-fengLongZhang-caiSchoolofPhysics,HuazhongUniversityofScienceandTechnology,Wuhan430074,China1引言在多个说话人语音以及复杂的声环境中,辨识和跟踪某一个说话人的语音并提取语音信息,是语音识别技术走向应用面临的重要课题和难题。技术上是从接收的语音信号中提取某些特征,利用这些特征和一定的判据将语音信号进行分类。迄今,所取得的效果并不令人满意。但是,听觉系统却有很好的说话人跟踪和辨识能力,其工作模式和机理值得借鉴。在说话人辨识技术中,以MFCC为代表的主流语音特征在时域上对语音作均匀权重处理[1]。但是听觉系统是否按这种方式工作呢?由于说话人音质特征信息对于噪声环境中搜索目标语音起到了最为关键性的作用,这就转化成几个需要明确的具体问题:(1)音质特征信息量在语音时域上如何分布?语言学研究[2]表明在词汇处理上辅音音素起到支配性作用,但是包含说话人音质特征的信息是否储存在清辅音中,还需要实验验证。(2)如果说话人音质特征信息储存在元音/浊辅音中,那么不同的元音/浊辅音对说话人识别过程的重要性是否一样的呢?如果不一样,那与什么因素有关?直接对不同音素中语音音质特征信息量进行测量具有一定的难度,但是近年来心理声学研究中发现的“提示效应”[3,4]实验模式很好地解决了这个问题。提示效应是指通过预先播放与目标声音相关的提示音,能够有效提高人类在噪声中识别目标语音的能力的现象。我们研究了被试在进行说话人辨识任务时所依赖的提示信息,发现提示音中不同音素有着不同的提示效果,这反映出音素所包含的说话人语音特征信息是不等量的。同时,通过与自然语言环境中发音的统计结果相比较,不同音素所包含的说话人的特征信息,与信息论中的信息熵的估计是一致的。这些研究结果,为说话人听觉辨识机制的揭示,以及说话人辨识的语音特征时域非均匀权重处理提供了全新的思路和实验证据。2实验方法2.1清浊音所含音质特征信息的测定该实验检验在说话人识别过程中元音/浊辅音和清辅音的重要性。每名被试先后听到两个语音信号S1,S2,S1结束1秒后出现S2。S1内容从单元音串,清辅音串,浊辅音串三项中随机选择。S2内容为随机选择三份语句信号线性叠加,分别由三个不同的说话人发音,其中一人为S1发音人。我们要求被试听完听力材料后,在S2中判断S1发音人存在与否或选择”不知道”。测试进行20轮。通过统计三种不同S1情况下被试正确率,它代表着S1所包含的说话人音质特征信息的多少。2.2不同元音所含音质特征信息的测定该实验设计检验在说话人识别过程中不同元音重要性与其在语言环境中出现概率的相关性。首先,我们通过《现代汉语常用字表》统计出汉语中各元音发音概率,这在一定程度上反映了日常语言环境中各元音的发音概率P。统计采用两种模式进行:解析模式将复元音拆解为两个元音发音进行统计,元音有a,o,e,i,u,v六个;综合模式将复元音独立统计,元音就包括i,a,ia,u,e,ou,ei等十五个。具体实验过程与前一实验一致,只是S1改由高频单元音串,低频单元音串,高频复元音串,低频复元音串四项中随机选取。高频单元音串即经过解析模式统计得到的单元音中发音概率最高若干单元音组成发音串,其余类推。3实验结果及分析3.1清浊音所含音质特征信息的测定表1实验一中不同提示音类型下被试的说话人判断正确率Tab.1TheaccuracyrateofspeakerjudgmentunderdifferentkindofprimingvoicesinExperment.1提示音元音(a,o,e,i,u,v)浊辅音(m,n,l,,r)清辅音(b,p,f,d,t,g…)判断正确率65%54%0%如表1所示,在实验一中,和元音浊辅音对照组相比,清辅音作为提示时,被试几乎不能分辨出说话人。这说明了在音素层面上,包含说话人音质特征信息并不分布在清辅音里,而在元音及浊音中。这也与我们的猜想一致。3.2不同元音所含音质特征信息的测定表2实验二中不同提示音下被试的说话人判断正确率Tab.2TheaccuracyrateofspeakerjudgmentunderdifferentprimingvoicesinExperment.2解析模式综合模式提...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

笔杆子文秘
机构认证
内容提供者

为您提供优质文档,供您参考!

确认删除?