生成对抗思想在强化学习技术中的研究与应用

生成对抗思想在强化学习技术中的研究与应用王嘉伟---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---【摘要】近年来,生成对抗网络技术和强化学习技术取得了很大的进步,前者主要研究了生成对抗网络应用于分布建模的基本原理,而后者研究了智能体如何在与环境交互过程中学习最优策略的基本问题。实际上,这两个技术在思想层面上存在着交叉与耦合,本文将深入探讨生成对抗思想在强化学习技术中的研究与应用,并在数学形式上揭示其异同。【关键词】生成对抗网络强化学习深度学习引言2014年,IanGoodfellow首次提出了一种名为生成对抗网络(GenerativeAdversarialNetworks,GAN)的架构[1],GAN是一类能够学习数据分布,并---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---实现在该数据分布中采样的模型。其架构主要由判别器D和生成器G组成,D能够估计数据分布与生成分布之间的散度或距离,G则负责最小化该散度或距离,以生成以假乱真的样本。而后,GAN便取得了极大的发展。2016年,阿尔法围棋(AlphaGo)横空出世,成为第一个战胜世界围棋冠军的强化学习算法[2]。这种算法使用了一种名为Actor-Critic的架构,其结合了Value-based模型和Policy-based模型的优点,使得强化学习模型能够在自我博弈和互相对抗中学习和进步。这种算法在本质上与生成对抗思想具有异曲同工的地方,下文将从优化函数的角度对其进行阐述和说明。算法思想分析生成对抗网络GAN的目标是,给定一个来自真实分布的数据集,我们想用一个模型学习一个生成分布,从而去逼近真实分布。首先,GAN由一个判别网络(Discriminator,D)和一个生成网络(Generator,G)组成,D用来估计生成分布与真实分布的散度,G则通过优化其网络参数来最小化该散度。以标准GAN的原理为例,其损失函数的形式如下:其中,为噪声,其满足均值为0,方差为1的高斯分布。从公式中可以看出,D和G分别是用min-max训练方式迭代学习的,D的目标是要最小化网络生成结果的判别误差,而G网络的目标是要最大化其判别概率。强化学习在强化学习技术中,有两种主要的基本模型,一种是Value-based的模型,另外一种是Policy-based的模型。前者通过学习值函数来评估策略,并通过比较不同策略的估计值来选择当前时刻的动作。而后者不学习值函数,其通过梯度估计的方法直接优化策略网络以最大化收益。Actor-Critic算法结合了两者的优点,其中Actor为一个策略网络,其输入为状态、动作,输出为相应概率值;而Critic的作用是估计给定状态和动作的值函数,用于策略评估和策略改进。标准的Actor-Critic算法的更新算法如下:---本文来源于网络,仅供参考,勿照抄,如有侵权请联系删除---其中,为智能体的行动轨迹。对于Q网络而言,其目标是要最小化行动所造成的值函数估计误差,而对于网络而言,其目标是要最大化其行动策略的值函数。这和GAN一样,刚好构成了min-max对抗训练过程。生成对抗思想与Actor-Critic技术的对比GAN与Actor-Critic网络的损失函数从数学形式看非常相似,这两种算法都有一个共同点,就是任务本身难以实现有监督学习。比如对于GAN而言,我们无法获取生成图像的标签进行有监督训练;对于Actor-Critic而言,策略网络生成的动作我们也没法直接判斷其正确与否;为此,这两种技术都采用了生成对抗思想,即用一个值网络对目标进行估计,再用最大化其值估计的方式去训练另一个子网络,从而刚好对应min-max训练过程。结论生成对抗思想是人工智能技术中一种巧妙的理论构思,其脱胎于生成对抗网络技术领域,却有利于强化学习技术的进步。从本质上来说,这是一种自动化构建损失函数的方法,使得机器学习算法能够在自我博弈中学习。本文从数学形式进行讨论,研究了生成对抗思想在强化学习技术中的应用,但这其实只是生成对抗思想的应用之一。本人希望在未来工作中,能看到更多生成对抗思想的借鉴与使用,进而促进人工智能领域的蓬勃发展。【参考文献】[1]GoodfellowI,Pouget-AbadieJ,MirzaM,etal.GenerativeAdversarialNets[C]//AdvancesinNeuralInformationProcessingSystems.2014:26...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?