广东十一选五玩法-广东十一选五规则_计划-广东十一选五开奖

HOTLINE

400-123-4567
网站公告: 欢迎光临广东十一选五玩法网站!
广东十一选五开奖 当前位置: 主页 > 广东十一选五开奖 >

北京赛车pk开奖直播资源 Richard Sutton经典教材《强

文章来源:    时间:2018-05-26

 

  原标题:资源 Richard Sutton经典教材《强化学习》第二版公布(附PDF下载) 选自i

  原标题:资源 Richard Sutton经典教材《强化学习》第二版公布(附PDF下载)

  当我们思考学习的本质时,首先映入脑海的想法很可能是通过与环境的交互进行学习。当一个婴儿玩耍时,挥舞手臂,左顾右盼,旁边没有老师指导他,他与环境却有着一种直接的感知连接。通过这种连接,他懂得了因果关系,行动带来的结果,以及为了达成目标所需做的一切。人的一生中,这样的交互成了我们关于环境和自身知识的主要来源。不管学习驾驶汽车,还是进行一场交谈,实际上我们自始至终观察着环境如何回应我们的所为,并通过自身行为影响当下情景。交互式学习几乎是所有学习与智能理论的基石。

  本书中我们提出了一种通过计算实现交互式学习的方法。我们没有直接理论化人类或动物的学习方式,而是探索理想的学习环境,评估不同学习方法的有效性。即,我们站在人工智能研究者或工程师的角度来解决问题。我们探讨了在解决科学或经济问题方面表现突出的机器的设计,通过数学分析或计算实验评估其设计。我们提出的这一方法称之为强化学习。相较于其他机器学习方法,它更专注于交互之中的目标导向性学习。

  本书第一部分我们以最简单形式描述了强化学习算法几乎所有的核心的概念,即状态和动作空间要足够小,保证近似值函数被表征为数组或表格。本案例中,这些方法经常能够发现正确方案,即找到最优值函数和最优策略。这与本书第二部分描述的、只能找到近似方案的近似法(但反过来它可有效用于解决更大的问题)形成了鲜明对比。

  本书第一部分的第一章描述了强化学习问题具体案例的解决方案,其中只有一个称为土匪问题(bandit problem)的单一状态。第二章描述了贯穿全书的一般问题制定——有限马尔科夫决策过程,其主要思想包括贝尔曼方程(Bellman equation)和价值函数。

  第三、四、五章介绍了解决有限马尔科夫决策问题的三类基本方法:动态编程,蒙特卡洛方法、时序差分学习。三者各有其优缺点。动态编程偏向数学,但是需要完整和精确的环境模型。蒙特卡洛无需模型,概念也很简单,但是不适用于一步一步的增量计算。时序差分方法也不需要模型,并且是完全增量的,但是分析异常困难。三者在效率和收敛速度方面也各有其不同。

  第六、七章介绍了上述三类方法如何结合在一起进而达到最佳效果。第六章中我们介绍了可使用适合度轨迹(eligibility traces)把蒙特卡洛方法和时序差分学习的优势整合起来。第七章中我们表明时序差分学习可与模型学习和规划方法(比如动态编程)结合起来,获得一个解决列表强化学习(tabular reinforcement learning)问题的完整而统一的方案。

  本书第二部分将扩展第一部分中介绍的列表法以应用于任意大的状态空间。我们希望应用强化学习的诸多任务中的状态空间都是组合性的和庞大的;例如,可能存在的图像的数量远远大于宇宙中的原子的总数。在这样的案例中我们甚至不能在无限的时间和数据极限内找到最优策略或最优值函数,因此我们的目标需要换成使用有限的计算资源寻找足够好的近似解。在本书的这一部分我们将探索多种近似解法。

  大型状态空间的问题不仅仅在于需要为大型的列表分配的内存,还有使其达到足够的准确率需要的时间和数据量。我们很多的目标任务中几乎每一个遇到的状态都是前所未见的。为了在这样的状态中做出合理的决策,从先前遇到的和当前状态在某种程度上相似的多种状态进行泛化是很有必要的。换一种说法,问题的关键就是泛化能力。状态空间的有限子集的经验如何有效地泛化以对相对大得多的子集生成足够好的近似解呢?

  幸运的是,从样本中泛化的问题已经被广泛地研究过,我们并不需要在强化学习中发明全新的方法;从某种程度上讲只需要将强化学习方法和已有的泛化方法结合起来。我们需要的泛化方法通常称为函数逼近,这是因为这种方法从所需的函数(例如,价值函数)中采样,然后从中泛化以构建完整函数的近似。函数逼近是监督学习的一个实例,也是机器学习、人工神经网络、模式识别和统计曲线拟合中最重要的研究课题。从理论上看,在这些领域中研究过的任何方法都可以用作强化学习算法中的函数逼近器,虽然实际上有些方法比起其它更加适用于强化学习。

  在强化学习中使用函数逼近涉及一些在传统的监督学习中不常出现的新问题,比如非稳定性(nonstationarity)、引导(bootstrapping)和目标延迟(delayed targets)。我们将在这部分的五章中先后介绍这些以及其它问题。我们首先集中讨论在线(on-policy)训练,而在第九章中的预测案例其策略是给定的,只有其价值函数是近似的,在第十章中的控制案例中最优策略的一个近似已经找到。函数逼近的离线(off-policy)学习的困难将在第十一章讨论。在这三章的每一章中我们都必须从基本原理开始,并复查函数逼近的学习目标。第十二章将介绍和分析适合度轨迹(eligibility traces)的算法机制,它能在多个案例中显著优化多步强化学习方法的计算特性。这一部分的最后一章将探索一种不同的控制、策略梯度的方法,它能直接逼近最优策略且完全不需要设定近似值函数(虽然如果使用了一个逼近价值函数,效率会高得多)。

  在本书的最后一部分我们将把眼光放到第一、北京赛车pk开奖直播二部分中介绍标准的强化学习思想之外,简单地概述它们和心理学以及神经科学的关系,讨论一个强化学习应用的采样过程,和一些未来的强化学习研究的活跃前沿。

地址:广东省广州市花都区38号    座机:400-123-4567    手机:13988999988
Copyright © 2002-2017 广东十一选五玩法 版权所有 | 网站地图 技术支持:广州十一选五    ICP备案编号:粤ICP备952485158号