收藏83篇文献万字总结强化学习之路

下载本文档

ID 639050
格式 doc
大小 806.5 KB
约32页
收藏
点赞(0)
海报
举报

/ 32

下载本文档

文本预览下载提示常见问题

深度强化学习是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用，得以解决现实场景中的复杂问题。从2013年DQN（深度Q网络，deepQnetwork）出现到目前为止，深度强化学习领域出现了大量的算法，以及解决实际应用问题的论文，本文将阐述深度强化学习的发展现状，并对未来进行展望。深度强化学习的泡沫2015年，DeepMind的VolodymyrMnih等研究员在《自然》杂志上发表论文Human-levelcontrolthroughdeepreinforcementlearning[1]，该论文提出了一个结合深度学习（DL）技术和强化学习（RL）思想的模型DeepQ-Network(DQN)，在Atari游戏平台上展示出超越人类水平的表现。自此以后，结合DL与RL的深度强化学习（DeepReinforcementLearning,DRL）迅速成为人工智能界的焦点。过去三年间，DRL算法在不同领域大显神通：在视频游戏[1]、棋类游戏上打败人类顶尖高手[2,3]；控制复杂的机械进行操作[4]；调配网络资源[5]；为数据中心大幅节能[6]；甚至对机器学习算法自动调参[7]。各大高校和企业纷纷参与其中，提出了眼花缭乱的DRL算法和应用。可以说，过去三年是DRL的爆红期。DeepMind负责AlphaGo项目的研究员DavidSilver喊出“AI=RL+DL”，认为结合了DL的表示能力与RL的推理能力的DRL将会是人工智能的终极答案。---本文来源于网络，仅供参考，勿照抄，如有侵权请联系删除---1.1DRL的可复现性危机然而，研究人员在最近半年开始了对DRL的反思。由于发表的文献中往往不提供重要参数设置和工程解决方案的细节，很多算法都难以复现。2017年9月，著名RL专家DoinaPrecup和JoellePineau所领导的的研究组发表了论文DeepReinforcementLearningthatMatters[8]，直指当前DRL领域论文数量多却水分大、实验难以复现等问题。该文在学术界和工业界引发热烈反响。很多人对此表示认同，并对DRL的实际能力产生强烈怀疑。其实，这并非PrecupPineau研究组第一次对DRL发难。早在2个月前，该研究组就通过充足的实验对造成DRL算法难以复现的多个要素加以研究，并将研究成果撰写成文ReproducibilityofBenchmarkedDeepReinforcementLearningTasksforContinuousControl[9]。同年8月，他们在ICML2017上作了题为“ReproducibilityofPolicyGradientMethodsforContinuousControl”的报告[10]，通过实例详细展示了在复现多个基于策略梯度的算法的过程中，由于种种不确定性因素导致的复现困难。12月，在万众瞩目的NIPS2017DRL专题研讨会上，JoellePineau受邀作了题为“ReproducibilityofDRLandBeyond”的报告[11]。---本文来源于网络，仅供参考，勿照抄，如有侵权请联系删除---报告中，Pineau先介绍了当前科研领域的“可复现性危机”：在《自然》杂志的一项调查中，90%的被访者认为“可复现性”问题是科研领域存在的危机，其中，52%的被访者认为这个问题很严重。在另一项调查中，不同领域的研究者几乎都有很高的比例无法复现他人甚至自己过去的实验。可见“可复现性危机”有多么严峻！Pineau针对机器学习领域发起的一项调研显示，同样有90%的研究者认识到了这个危机。机器学习领域存在严重的“可复现性危机”[11]随后，针对DRL领域，Pineau展示了该研究组对当前不同DRL算法的大量可复现性实验。实验结果表明，不同DRL算法在不同任务、不同超参数、不同随机种子下的效果大相径庭。在报告后半段，Pineau呼吁学界关注“可复现性危机”这一问题，并根据她的调研结果，提出了12条检验算法“可复现性”的准则，宣布计划在ICLR2018开始举办“可复现实验挑战赛”（“可复现危机”在其他机器学习领域也受到了关注，ICML2017已经举办了ReproducibilityinMachineLearningWorkshop，并将在今年继续举办第二届），旨在鼓励研究者做出真正扎实的工作，抑制机器学习领域的泡沫。PineauPrecup研究组的这一系列研究获得了广泛关注。---本文来源于网络，仅供参考，勿照抄，如有侵权请联系删除---Pineau基于大量调查提出的检验算法“可复现性”准则[11]1.2DRL研究存在...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供参考，付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等，请点击“举报”。