基于多模态视觉特征的自然人机交互

基于多模态视觉特征的自然人机交互#管业鹏*(上海大学通信与信息工程学院,上海200072)510152025303540摘要:针对目前人机交互中存在的问题与不足,提出了一种基于多模态视觉特征的人机交互新方法.采用二维Gabor小波提取全局人脸朝向视觉特征,克服人脸显著特征提取困难,以及不同人脸朝向特征区分的难度性;无需考虑人脸图像分辨率、人眼闭合及其配戴情况,基于人脸几何分布特征快速、有效定位人眼中心;通过对视觉特征的重要性评价,选取分类特性显著的多模态视觉进行机器学习与训练,确定用户所指目标,实现非穿戴、自然的人机交互,用户无需佩戴任何标记,且其活动不受约束,便于充分发挥其日常技能.通过实验对比,验证了文中所提方法有效、可行,可应用于实时、非穿戴的自然人机交互中.关键词:人机交互;多模态视觉特征;非穿戴;机器学习中图分类号:TP391.4Multimodalvisualfeaturesbasednaturalhuman-computerinteractionGUANYepeng(SchoolofCommunicationandInformationEngineering,ShanghaiUniversity,ShangHai200072)Abstract:Anovelhuman-computerinteraction(HCI)isdevelopedbasedonmultimodalvisualfeaturesaimingatsomelimitsatpresent.Two-dimensionalGaborwaveletisadoptedtoextractsomevisualfeaturesofglobalfaceorientation,whichovercomessomedifficultiesincludingextractionofsomefacialdistinctfeatures,discriminationamongsomedifferentfacialorientations.Anefficientandfastapproachtolocatingcenterofeyesisproposedbasedonfacialgeometricdistributionswithoutconsideringfacialresolution,eyesclosingoropeninganduser’swearing.Someprominentmultimodalvisualfeaturesforclassificationareselectedtomachinelearningandtrainingtodeterminethepointingtargetafterevaluatingperformanceofsomeextractedvisualfeatures.Non-wearableandnaturalHCImodalcanberealizedinwhichusercanmovefreelywithoutwearinganymarkerswhenhepointsatsometargets.TheirdailyskillscanbeexertedfullyduringHCI.Experimentresultsindicatethatthedevelopedapproachisefficientandcanbeusedtonaturalnon-wearableHCI.Keywords:Human-computerinteraction;multimodalvisualfeatures;non-wearable;machinelearning0引言随着计算机应用的日益普及,人机交互技术已成为人们工作、学习、生活的重要组成部分,且在社会、经济和国家安全等领域发挥着越来越重要的作用,研究“以人为中心”、自然、和谐、高效的人机交互技术日益受到人们的高度重视[1-2]。在早期的研究中,人机交互多侧重于单一模态(亦称为通道)。因人们面对面交流时,往往同时采用多个模态,包括语音、面部表情、手势、姿态和情感等,因此采用多模态方式进行人机交互则可充分利用人的多种感知模态(如语言、手势或视线等)的互补特性反映用户意图,以并行、非精确方式与计算机进行交互,摆脱目前常规输入设备(如键盘、鼠标器和触摸屏等)束缚,增进人机交互的自然性并充分发挥人类日常技能[3-4]。为实现基于多模态的人机交互,Li和Jarvis[5]基于手势和身体姿态实现多模态人机交互,基金项目:高等学校博士学科点专项科研基金资助课题(20123108110014);国家自然科学基金(60872117)作者简介:管业鹏,(1967-),男,教授,博士生导师,主要研究方向:智能信息感知、人机交互、模式识别、智能监控与安全防范等。E-mail:shugyp@yeah.net-1-r度的纹理信息,将人脸图像I(x)与Gabor滤波器组的各个滤波器j(x)进行卷积:rrr其中,x为给定位置的图像坐标,j(x)为二维Gabor滤波器函数,j=0,......,M×N-1。r通过双目摄像机获取用户三维位置信息并估计人眼注视方向。由于立体匹配存在歧义性及其455055本身问题的复杂性[6]导致所获取的三维信息不可靠,同时计算复杂而难满足实时人机交互要求。Karpov等人[7]基于语音识别和光流头部跟踪实现双模态人机交互。所提方法不仅受外界场景条件约束,且人机交互实时性差。Carrino等人[8]基于穿戴视觉的指示、图标和语音命令实现多模态人机交互,通过附着于手臂的摄像机确定用户所指目标是否存...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?