基于强化学习的腿式机器人运动控制与决策研究

基于强化学习的腿式机器人运动控制与决策研究侯远韶---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---DOI:10.16660/j.cnki.1674-098x.2011-5640-9053摘要:传统的腿式机器人在未知环境中进行运动控制和路径规划时收敛速度慢,路径不够优化具有一定的局限性,无法满足运动控制系统对实时性和精确度的要求。针对这一情况,将深度学习的学习能力与强化学习的决策能力有机地结合起来,利用深度学习具有自动特征提取和深度结构的学习优势,以及强化学习在闭环学习系统中对未知环境进行探索、反馈再探索鲁棒性强的特点,从而解决机器人在运动控制中的复杂序贯决策得到最优路径规划,最终实现腿式机器人合理的运动控制与决策。---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---关键词:深度学习强化学习运动控制路径规划:TP391.4:A:1674-098X(2021)01(c)-0111-04ResearchonMotionControlandDecisionofLeggedRobotbasedonReinforcementLearningHOUYuanshao(DepartmentofMechanicalandElectricalEngineering,HenanIndustryandTradeVocationalCollege,Zhengzhou,HenanProvince,451191,China)Abstract:Traditionalleggedrobotsconvergeslowlywhenperformingmotioncontrolandpathplanninginanunknownenvironment,andthepathisnotoptimizedenoughtohavecertainlimitations,andcannotmeetthereal-timeandaccuracyrequirementsofthemotioncontrolsystem.Inresponsetothissituation,thelearningabilityofdeeplearningandthedecision-makingabilityofreinforcementlearningareorganicallycombined,anddeeplearninghastheadvantagesofautomaticfeatureextractionanddeepstructurelearning,aswellasreinforcementlearningtoexploreunknownenvironmentsinaclosed-looplearningsystem.Thefeedbackexploresthecharacteristicsofstrongrobustness,soastosolvethecomplexsequentialdecision-makingoftherobotinthemotioncontroltoobtaintheoptimalpathplanning,andfinallyrealizethereasonablemotioncontrolanddecision-makingoftheleggedrobot.KeyWords:Deeplearning;Reinforcementlearning;Sportcontrol;Routeplan1強化学习1.1强化学习原理及系统组成---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---机器学习算法作为人工智能算法的核心,包含了有监督、无监督以及强化学习算法。其中强化学习算法作为一种典型的序贯决策问题对无训练样本数据具有很大的优势,通过求解输入输出之间的最优解来解决优化问题,是一种对控制策略进行优化的框架。强化学习作为一种学习算法通过模拟人的学习方式,利用已知的环境数据,不断优化自身的决策,实现收益的最大化,最终得到准确的位置判断和决策控制[1]。标准的强化学习主要受环境状态、动作、探索率以及状态转移模型等8个因素的影响[2]。1.2深度学习与强化学习深度学习作为典型的机器学习算法也称为深层结构学习,通过对原始数据进行逐级提取从而得到抽象的高层表征[3]。深度学习利用分层抽象的思想处理复杂的高维数据,得到具有典型代表性的机器学习有效特征,同时深度学习可以利用网络中任意一层的输出数据作为特征的表达,进而实现特征提取与转换,并反馈给高层数据,继而得到更加复杂抽象的特征[4]。强化学习算法主要通过对人类学习的心理学以及控制理论中路径规划的最优控制分析,获得知识进而改进策略以适应复杂多变的环境[5]。主要分为模型已知的强化学习算法和模型未知的强化学习算法,两种算法都需要通过环境交互得到信息,不同之处在于其中模型已知的强化学习算法可以利用已知模型对值函数进行计算,进而得到不同控制策略下的最佳输出结果,主要代表算法有价值迭代算法和策略迭代算法;模型未知的强化学习算法,不依赖精确的模型,具有很好的适应能力,通过比较利用与探索问题进而得到最优策略,主要代表算法有时序差分算法和DQN算法[6]。强化学习具体流程如图1所示。1.3深度强化学习与路径规划传统的路径规划算法以及运动控制策略可以实现基...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

确认删除?