TDlearningPER和Epsilon深度学习对高等教育教学的启示

TDlearning,PER和Epsilon深度学习对高等教育教学的启示张慧Summary:本文从研究深度学习出发,提出深度学习在增强学习领域能被高等教育借鉴的三种重要算法:时间差分学习、优先经验回放、创新指数,通过对这些算法的具体分析,总结这些算法如何优势互补,综合运用到高等教育教学实践上,提高高等教育教学效果。Key:深度学习;时间差分学习;优先经验回放;创新指数:G642.41文献标志码:A:1674-9324(2018)31-0239-03一、引言“深度学习”本质上是一个计算机科学领域的概念。谷歌的深度学习机器人Alpha-Go在围棋上轻松战胜人类顶尖高手的故事已经家喻户晓。如果把中国棋院、韩国棋院、日本棋院比作世界围棋界最顶尖的三所高校,顶尖的棋手是这三所高校最优秀的毕业生。而Alpha-Go开发团队里围棋水平最高的工程师也只有业余五段,相当于小学毕业学历,一天大学都没有上过,但是掌握了深度学习方法的学生,结果成绩远远超越了所有顶尖大学最优秀的毕业生。这是一个值得思考和研究的问题。深度学习和AI(ArtificialIntelligence)“人工智能”紧密相关。计算机是通过数理逻辑运算来进行学习的,如果计算机的深度学习算法反向被人类学习借鉴,那就表明这些学习方法在数理逻辑上也是可以被证明有效的。本文从这个角度出发,提出已经在深度学习上得到检验有效的“算法”,反过来也可以让人类的学习方法和效率得到提升,最后提出深度學习的研究成果对高等教育教学的启示。二、深度学习概述深度学习是近十年才被提出的一个概念(Hinton[1],2006)。简单地说深度学习就是让计算机通过模仿人类大脑的神经网络能够像人类一样学习。深度学习分为“认知”学习和“增强”学习两大类。(一)认知学习深度学习根据其应用的领域不同,或者说模仿人脑的机能不同,分为“认知”学习和“增强”学习两大类。所谓“认知学习”,就是每一项输入都有一个标准的输出答案。例如图像识别、语音识别、数学计算题、史实知识点,等等。因为监督者立刻就可以反馈对或错,所以也被称为“有监督的学习”。(二)增强学习而“增强学习”和“认知学习”最大的不同就在于没有标准答案。对于没有标准答案的问题,就不能轻易地去否定或肯定一个与原来流行的权威理论不同的思想,而是随着不断地探索,会得到一些时而清晰时而模糊的反馈,要经历一个较长的过程才能看出最终的结果是好是坏。当下的每一步是对整体结果的“增强”。下围棋就是这样的,一步棋的好坏在当时并不明确,而随着棋局的进一步展开才会显现,而最终的输赢要在很多步之后才明确。因为无法立刻反馈对或错,所以这种学习也被称为“无监督的学习”。增强学习核心有三个部分:1.状态(State):关于当前状态的变量。2.行动(Action):计划采取的行动。3.回报(Reward)采取行动后新的状态对原有状态的改变。深度学习对高等教育教研的启发主要在“增强”学习领域。高等教育和初等教育的一个重要区别是,初等教育的学习方法中“认知”占了很大的比重,而高等教育的学习方法中“增强”占了很大的比重。这并不意味着增强学习要比认知学习来得更难。只能说对计算机来说意味着不同的算法,而对人类来说则意味着不同的思维方式,不同的算法(不同的思维方式)对应解决不同的问题。例如,让一个建筑工程师设计一幢新的楼房要比让他学会一门新的外语容易很多,虽然前者属于增强学习,而后者属于认知学习。下面就具体分析三个增强学习中的重要算法及其对高等教育教学的启发。三、增强学习中的三个重要算法:TDLearning,PER和Epsilon(一)时间差分学习(TemporalDifferenceLearning,简称TDLearning)时间差分学习是在“动态规划”算法和“蒙特卡罗模拟”算法的基础上发展起来的。动态规划类似于“穷举法”,把未来可能出现的状况全部罗列出来,逐个比较。它的缺陷也很明显:当问题的复杂程度提高时(表现为变量的增加),它需要的计算量呈指数级增加。例如,一个真实的19*19的围棋盘,变化有3361种,这个数字比全宇宙的原子数还要大,现有的任何计算机都无法计算。这也即是所谓的“维度的诅咒”(CurseofDimensionality)。“蒙特卡罗”模拟针对“维度的诅咒”...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供参考,付费前请自行鉴别。
3、如文档内容存在侵犯商业秘密、侵犯著作权等,请点击“举报”。

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

客服邮箱:

biganzikefu@outlook.com

所有的文档都被视为“模板”,用于写作参考,下载前须认真查看,确认无误后再购买;

文档大部份都是可以预览的,笔杆子文库无法对文档的真实性、完整性、准确性以及专业性等问题提供审核和保证,请慎重购买;

文档的总页数、文档格式和文档大小以系统显示为准(内容中显示的页数不一定正确),网站客服只以系统显示的页数、文件格式、文档大小作为依据;

如果您还有什么不清楚的或需要我们协助,可以联系客服邮箱:

biganzikefu@outlook.com

常见问题具体如下:

1、问:已经付过费的文档可以多次下载吗?

      答:可以。登陆您已经付过费的账号,付过费的文档可以免费进行多次下载。

2、问:已经付过费的文档不知下载到什么地方去了?

     答:电脑端-浏览器下载列表里可以找到;手机端-文件管理或下载里可以找到。

            如以上两种方式都没有找到,请提供您的交易单号或截图及接收文档的邮箱等有效信息,发送到客服邮箱,客服经核实后,会将您已经付过费的文档即时发到您邮箱。

注:微信交易号是以“420000”开头的28位数字;

       支付宝交易号是以“2024XXXX”交易日期开头的28位数字。

文秘专家
机构认证
内容提供者

1

确认删除?