基于多模态视觉特征的自然人机交互#管业鹏*(上海大学通信与信息工程学院,上海200072)510152025303540摘要:针对目前人机交互中存在的问题与不足,提出了一种基于多模态视觉特征的人机交互新方法.采用二维Gabor小波提取全局人脸朝向视觉特征,克服人脸显著特征提取困难,以及不同人脸朝向特征区分的难度性;无需考虑人脸图像分辨率、人眼闭合及其配戴情况,基于人脸几何分布特征快速、有效定位人眼中心;通过对视觉特征的重要性评价,选取分类特性显著的多模态视觉进行机器学习与训练,确定用户所指目标,实现非穿戴、自然的人机交互,用户无需佩戴任何标记,且其活动不受约束,便于充分发挥其日常技能.通过实验对比,验证了文中所提方法有效、可行,可应用于实时、非穿戴的自然人机交互中.关键词:人机交互;多模态视觉特征;非穿戴;机器学习中图分类号:TP391.4Multimodalvisualfeaturesbasednaturalhuman-computerinteractionGUANYepeng(SchoolofCommunicationandInformationEngineering,ShanghaiUniversity,ShangHai200072)Abstract:Anovelhuman-computerinteraction(HCI)isdevelopedbasedonmultimodalvisualfeaturesaimingatsomelimitsatpresent.Two-dimensionalGaborwaveletisadoptedtoextractsomevisualfeaturesofglobalfaceorientation,whichovercomessomedifficultiesincludingextractionofsomefacialdistinctfeatures,discriminationamongsomedifferentfacialorientations.Anefficientandfastapproachtolocatingcenterofeyesisproposedbasedonfacialgeometricdistributionswithoutconsideringfacialresolution,eyesclosingoropeninganduser’swearing.Someprominentmultimodalvisualfeaturesforclassificationareselectedtomachinelearningandtrainingtodeterminethepointingtargetafterevaluatingperformanceofsomeextractedvisualfeatures.Non-wearableandnaturalHCImodalcanberealizedinwhichusercanmovefreelywithoutwearinganymarkerswhenhepointsatsometargets.TheirdailyskillscanbeexertedfullyduringHCI.Experimentresultsindicatethatthedevelopedapproachisefficientandcanbeusedtonaturalnon-wearableHCI.Keywords:Human-computerinteraction;multimodalvisualfeatures;non-wearable;machinelearning0引言随着计算机应用的日益普及,人机交互技术已成为人们工作、学习、生活的重要组成部分,且在社会、经济和国家安全等领域发挥着越来越重要的作用,研究“以人为中心”、自然、和谐、高效的人机交互技术日益受到人们的高度重视[1-2]。在早期的研究中,人机交互多侧重于单一模态(亦称为通道)。因人们面对面交流时,往往同时采用多个模态,包括语音、面部表情、手势、姿态和情感等,因此采用多模态方式进行人机交互则可充分利用人的多种感知模态(如语言、手势或视线等)的互补特性反映用户意图,以并行、非精确方式与计算机进行交互,摆脱目前常规输入设备(如键盘、鼠标器和触摸屏等)束缚,增进人机交互的自然性并充分发挥人类日常技能[3-4]。为实现基于多模态的人机交互,Li和Jarvis[5]基于手势和身体姿态实现多模态人机交互,基金项目:高等学校博士学科点专项科研基金资助课题(20123108110014);国家自然科学基金(60872117)作者简介:管业鹏,(1967-),男,教授,博士生导师,主要研究方向:智能信息感知、人机交互、模式识别、智能监控与安全防范等。E-mail:shugyp@yeah.net-1-r度的纹理信息,将人脸图像I(x)与Gabor滤波器组的各个滤波器j(x)进行卷积:rrr其中,x为给定位置的图像坐标,j(x)为二维Gabor滤波器函数,j=0,......,M×N-1。r通过双目摄像机获取用户三维位置信息并估计人眼注视方向。由于立体匹配存在歧义性及其455055本身问题的复杂性[6]导致所获取的三维信息不可靠,同时计算复杂而难满足实时人机交互要求。Karpov等人[7]基于语音识别和光流头部跟踪实现双模态人机交互。所提方法不仅受外界场景条件约束,且人机交互实时性差。Carrino等人[8]基于穿戴视觉的指示、图标和语音命令实现多模态人机交互,通过附着于手臂的摄像机确定用户所指目标是否存...