设为首页|收藏本站|
开启左侧

[问答] MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ...

[复制链接]
91145 1
巨蟹简简单单英 发表于 2022-8-8 11:06:36 | 只看该作者 打印 上一主题 下一主题
 
【导读】MIT科学家Dimitri P. Bertsekas在ASU开设了2022《强化学习》课程,讲述了强化学习一系列主题。Dimitri 的专著《强化学习与最优控制》,是一本探讨人工智能与最优控制的共同边界的著作。

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第1张图片

本课程将聚焦于强化学习(RL),这是人工智能目前非常活跃的一个分支领域,并将有选择性地讨论一些基于近似动态规划(DP)方法的算法主题: 逼近值和策略空间,近似策略迭代,推出(策略迭代的一种一次性形式),模型预测控制,多智能体方法,挑战组合优化问题的应用,使用模拟和神经网络架构的实现,策略梯度方法,聚合,以及工程和人工智能应用,比如AlphaZero和TD-Gammon程序的高调成功,这两个程序分别会下国际象棋和西洋双陆棋。

我们的主要目标之一是为RL和近似DP提出和开发一个新的概念框架。这个框架围绕着两种算法,它们在很大程度上独立设计,并通过牛顿方法的强大机制协同运行。我们称之为离线训练和在线游戏算法; 这些名字是借用了一些RL的主要成功游戏,如AlphaZero和TD-Gammon。在这些程序的背景下,离线训练算法是用来教程序如何评估位置和在任何给定的位置产生好的移动的方法,而在线比赛算法是用来实时对抗人或计算机对手的方法。我们的主要目标之一是,通过牛顿方法的算法思想和抽象DP的统一原则,表明AlphaZero和TD-Gammon方法的值空间逼近和铺展非常广泛地应用于确定性和随机最优控制问题,包括离散和连续搜索空间,以及有限和无限视界。此外,我们将展示我们的概念框架可以有效地与其他重要的方法集成,如模型预测和自适应控制、多智能体系统和分散控制、离散和贝叶斯优化,以及离散优化的启发式算法。本课程的主要重点是鼓励研究生通过定向阅读和与教师的互动来加强学习。

专知

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第2张图片

作者Dimitri P. Bertsekas教授,1942年出生于希腊雅典,美国工程院院士,麻省理工大学电子工程及计算机科学教授。Bertsekas教授因其在算法优化与控制方面以及应用概率论方面编写了多达16本专著而闻名于世。他也是CiteSeer搜索引擎学术数据库中被引用率最高的100位计算机科学作者之一。Bertsekas教授还是Athena Scientific出版社的联合创始人。

讲义稿:

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第3张图片

《强化学习与最优控制》书籍

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第4张图片

本书的目的是考虑大型和具有挑战性的多阶段决策问题,这些问题可以通过动态规划和最优控制从原则上解决,但它们的精确解在计算上是难以解决的。我们讨论了依靠近似来产生性能良好的次优策略(suboptimal policies)的求解方法。这些方法统称为强化学习(reinforcement learning),也包括近似动态规划(approximate dynamic programming)和神经动态规划( neuro-dynamic programming)等替代名称。

我们的学科从最优控制和人工智能的思想相互作用中获益良多。本专著的目的之一是探索这两个领域之间的共同边界,并形成一个可以在任一领域具有背景的人员都可以访问的桥梁。

这本书的数学风格与作者的动态规划书和神经动态规划专著略有不同。我们更多地依赖于直观的解释,而不是基于证据的洞察力。在附录中,我们还对有限和无限视野动态规划理论和一些基本的近似方法作了严格的简要介绍。为此,我们需要一个适度的数学背景:微积分、初等概率和矩阵向量代数等。

实践证明这本书中的方法是有效的,最近在国际象棋和围棋中取得的惊人成就就是一个很好的证明。然而,在广泛的问题中,它们的性能可能不太可靠。这反映了该领域的技术现状:没有任何方法能够保证对所有甚至大多数问题都有效,但有足够的方法来尝试某个具有挑战性的问题,并有合理的机会使其中一个或多个问题最终获得成功。因此,我们的目标是提供一系列基于合理原则的方法,并为其属性提供直觉,即使这些属性不包括可靠的性能保证。希望通过对这些方法及其变体的充分探索,读者将能够充分解决他/她自己的问题。

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第5张图片

课程讲义课件:

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第6张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第7张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第8张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第9张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第10张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第11张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第12张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第13张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第14张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第15张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第16张图片


上一篇:麻省理工学院 | 商学院金融&商业分析硕士已经开放2023年申请!
下一篇:暑期赴美团位 最好的日期,最优的价格;
@



1.西兔生活网 CTLIVES 内容全部来自网络;
2.版权归原网站或原作者所有;
3.内容与本站立场无关;
4.若涉及侵权或有疑义,请点击“举报”按钮,其他联系方式或无法及时处理。
 

精彩评论1

正序浏览
跳转到指定楼层
沙发
顶峰国际 发表于 2022-8-8 11:06:58 | 只看该作者
 
比Sutton的书强无数倍
回复 支持 反对

使用道具 举报

 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-5-4 17:21