基于多模态视觉特征的自然人机交互

下载本文档

ID 219815
格式 doc
大小 410 KB
约9页
收藏
点赞(0)
海报
举报

/ 9

下载本文档

文本预览下载提示常见问题

基于多模态视觉特征的自然人机交互#管业鹏*（上海大学通信与信息工程学院，上海200072）510152025303540摘要：针对目前人机交互中存在的问题与不足,提出了一种基于多模态视觉特征的人机交互新方法.采用二维Gabor小波提取全局人脸朝向视觉特征,克服人脸显著特征提取困难,以及不同人脸朝向特征区分的难度性;无需考虑人脸图像分辨率、人眼闭合及其配戴情况,基于人脸几何分布特征快速、有效定位人眼中心;通过对视觉特征的重要性评价,选取分类特性显著的多模态视觉进行机器学习与训练,确定用户所指目标,实现非穿戴、自然的人机交互,用户无需佩戴任何标记,且其活动不受约束,便于充分发挥其日常技能.通过实验对比,验证了文中所提方法有效、可行,可应用于实时、非穿戴的自然人机交互中.关键词：人机交互；多模态视觉特征；非穿戴；机器学习中图分类号：TP391.4Multimodalvisualfeaturesbasednaturalhuman-computerinteractionGUANYepeng(SchoolofCommunicationandInformationEngineering,ShanghaiUniversity,ShangHai200072)Abstract:Anovelhuman-computerinteraction(HCI)isdevelopedbasedonmultimodalvisualfeaturesaimingatsomelimitsatpresent.Two-dimensionalGaborwaveletisadoptedtoextractsomevisualfeaturesofglobalfaceorientation,whichovercomessomedifficultiesincludingextractionofsomefacialdistinctfeatures,discriminationamongsomedifferentfacialorientations.Anefficientandfastapproachtolocatingcenterofeyesisproposedbasedonfacialgeometricdistributionswithoutconsideringfacialresolution,eyesclosingoropeninganduser’swearing.Someprominentmultimodalvisualfeaturesforclassificationareselectedtomachinelearningandtrainingtodeterminethepointingtargetafterevaluatingperformanceofsomeextractedvisualfeatures.Non-wearableandnaturalHCImodalcanberealizedinwhichusercanmovefreelywithoutwearinganymarkerswhenhepointsatsometargets.TheirdailyskillscanbeexertedfullyduringHCI.Experimentresultsindicatethatthedevelopedapproachisefficientandcanbeusedtonaturalnon-wearableHCI.Keywords:Human-computerinteraction;multimodalvisualfeatures;non-wearable;machinelearning0引言随着计算机应用的日益普及，人机交互技术已成为人们工作、学习、生活的重要组成部分，且在社会、经济和国家安全等领域发挥着越来越重要的作用，研究“以人为中心”、自然、和谐、高效的人机交互技术日益受到人们的高度重视[1-2]。在早期的研究中，人机交互多侧重于单一模态(亦称为通道)。因人们面对面交流时，往往同时采用多个模态，包括语音、面部表情、手势、姿态和情感等，因此采用多模态方式进行人机交互则可充分利用人的多种感知模态(如语言、手势或视线等)的互补特性反映用户意图，以并行、非精确方式与计算机进行交互，摆脱目前常规输入设备(如键盘、鼠标器和触摸屏等)束缚，增进人机交互的自然性并充分发挥人类日常技能[3-4]。为实现基于多模态的人机交互，Li和Jarvis[5]基于手势和身体姿态实现多模态人机交互，基金项目：高等学校博士学科点专项科研基金资助课题(20123108110014)；国家自然科学基金(60872117)作者简介：管业鹏，（1967-），男，教授，博士生导师，主要研究方向：智能信息感知、人机交互、模式识别、智能监控与安全防范等。E-mail:shugyp@yeah.net-1-r度的纹理信息，将人脸图像I(x)与Gabor滤波器组的各个滤波器j(x)进行卷积：rrr其中，x为给定位置的图像坐标，j(x)为二维Gabor滤波器函数，j=0,......,M×N-1。r通过双目摄像机获取用户三维位置信息并估计人眼注视方向。由于立体匹配存在歧义性及其455055本身问题的复杂性[6]导致所获取的三维信息不可靠，同时计算复杂而难满足实时人机交互要求。Karpov等人[7]基于语音识别和光流头部跟踪实现双模态人机交互。所提方法不仅受外界场景条件约束，且人机交互实时性差。Carrino等人[8]基于穿戴视觉的指示、图标和语音命令实现多模态人机交互，通过附着于手臂的摄像机确定用户所指目标是否存...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供参考，付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等，请点击“举报”。