MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ...

巨蟹简简单单英 · 发表于 2022-8-8 11:06:36

【导读】MIT科学家Dimitri P. Bertsekas在ASU开设了2022《强化学习》课程，讲述了强化学习一系列主题。Dimitri 的专著《强化学习与最优控制》，是一本探讨人工智能与最优控制的共同边界的著作。

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第1张图片

本课程将聚焦于强化学习(RL)，这是人工智能目前非常活跃的一个分支领域，并将有选择性地讨论一些基于近似动态规划(DP)方法的算法主题: 逼近值和策略空间，近似策略迭代，推出(策略迭代的一种一次性形式)，模型预测控制，多智能体方法，挑战组合优化问题的应用，使用模拟和神经网络架构的实现，策略梯度方法，聚合，以及工程和人工智能应用，比如AlphaZero和TD-Gammon程序的高调成功，这两个程序分别会下国际象棋和西洋双陆棋。

我们的主要目标之一是为RL和近似DP提出和开发一个新的概念框架。这个框架围绕着两种算法，它们在很大程度上独立设计，并通过牛顿方法的强大机制协同运行。我们称之为离线训练和在线游戏算法; 这些名字是借用了一些RL的主要成功游戏，如AlphaZero和TD-Gammon。在这些程序的背景下，离线训练算法是用来教程序如何评估位置和在任何给定的位置产生好的移动的方法，而在线比赛算法是用来实时对抗人或计算机对手的方法。我们的主要目标之一是，通过牛顿方法的算法思想和抽象DP的统一原则，表明AlphaZero和TD-Gammon方法的值空间逼近和铺展非常广泛地应用于确定性和随机最优控制问题，包括离散和连续搜索空间，以及有限和无限视界。此外，我们将展示我们的概念框架可以有效地与其他重要的方法集成，如模型预测和自适应控制、多智能体系统和分散控制、离散和贝叶斯优化，以及离散优化的启发式算法。本课程的主要重点是鼓励研究生通过定向阅读和与教师的互动来加强学习。

专知

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第2张图片

作者Dimitri P. Bertsekas教授，1942年出生于希腊雅典，美国工程院院士，麻省理工大学电子工程及计算机科学教授。Bertsekas教授因其在算法优化与控制方面以及应用概率论方面编写了多达16本专著而闻名于世。他也是CiteSeer搜索引擎学术数据库中被引用率最高的100位计算机科学作者之一。Bertsekas教授还是Athena Scientific出版社的联合创始人。

讲义稿：

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第3张图片

《强化学习与最优控制》书籍

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第4张图片

本书的目的是考虑大型和具有挑战性的多阶段决策问题，这些问题可以通过动态规划和最优控制从原则上解决，但它们的精确解在计算上是难以解决的。我们讨论了依靠近似来产生性能良好的次优策略（suboptimal policies）的求解方法。这些方法统称为强化学习（reinforcement learning），也包括近似动态规划（approximate dynamic programming）和神经动态规划（ neuro-dynamic programming）等替代名称。

我们的学科从最优控制和人工智能的思想相互作用中获益良多。本专著的目的之一是探索这两个领域之间的共同边界，并形成一个可以在任一领域具有背景的人员都可以访问的桥梁。

这本书的数学风格与作者的动态规划书和神经动态规划专著略有不同。我们更多地依赖于直观的解释，而不是基于证据的洞察力。在附录中，我们还对有限和无限视野动态规划理论和一些基本的近似方法作了严格的简要介绍。为此，我们需要一个适度的数学背景：微积分、初等概率和矩阵向量代数等。

实践证明这本书中的方法是有效的，最近在国际象棋和围棋中取得的惊人成就就是一个很好的证明。然而，在广泛的问题中，它们的性能可能不太可靠。这反映了该领域的技术现状：没有任何方法能够保证对所有甚至大多数问题都有效，但有足够的方法来尝试某个具有挑战性的问题，并有合理的机会使其中一个或多个问题最终获得成功。因此，我们的目标是提供一系列基于合理原则的方法，并为其属性提供直觉，即使这些属性不包括可靠的性能保证。希望通过对这些方法及其变体的充分探索，读者将能够充分解决他/她自己的问题。

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第5张图片

课程讲义课件：

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第6张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第7张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第8张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第9张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第10张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第11张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第12张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第13张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第14张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第15张图片

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ... 第16张图片

上一篇：麻省理工学院 | 商学院金融&商业分析硕士已经开放2023年申请！
下一篇：暑期赴美团位最好的日期，最优的价格；

顶峰国际 · 发表于 2022-8-8 11:06:58

比Sutton的书强无数倍

白金会员	积分	兔币	帖子
白金会员, 积分 3608, 距离下一级还需 1392 积分	3608	1978	1630
在线时间：0 小时	最后登录：2023-10-16

白金会员	积分	兔币	帖子
白金会员, 积分 3406, 距离下一级还需 1594 积分	3406	1842	1564
在线时间：0 小时	最后登录：2023-10-11

[问答] MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制 ...

关联主题

精彩评论1

辽宁94-110广东，周琦复出改变内线平衡，张

对美国的驻军要求，蒙古国明确说不，转头与

索尼Xperia 1 VI有望5月17日发布改动不小

土木工程院校排名出炉！学科特点分析，就业

以色列驻联合国代表：没料到哈马斯还潜伏在

主场16分完败广东！杨鸣公开批评：除了赵继

港股再大涨！汽车股、房地产股走高

说了不要给一诺公孙离，史上最水FMVP皮肤拥

反复发热2个礼拜，当心孩子中招这种病毒！

再次维持利率不变美国货币政策拖累全球经

鸡蛋大小！广州多地降下冰雹，“天空数次闪

万科，破鼓万人捶

日本扩大出口管制范围：项庄舞剑，意在沛公

选秀节目强势回归！盘点内娱选秀综艺发展史

抵制成功！田馥甄退出天津演出，直言很遗憾

张颂文新综艺《灿烂的花园》：口碑两极分化

余承东卸任华为终端BG CEO，何刚接任：背后

心肺复苏首次纳入河南郑州中考，按压力度是

辽宁94-110广东，周琦复出改变内线平衡，张

从6000万到11亿外加一条人命，《城中之城》

主角脸对女演员有多重要？看《无限超越班》

轰20很快对外公布，台中将：轰20完全隐形，

鸡蛋大小！广州多地降下冰雹，“天空数次闪

20岁谷爱凌惊艳颁奖礼，穿“黄金战袍”气场

花费53万竞买法拍房，拖延近一年多难收房;

万科，破鼓万人捶

我老公是国足！球员妻子开保时捷撞车后打人

“木头姐”谈特斯拉目标价，说对了吗

3个半小时，点球10-11，夺冠热门出局，黑马

巴勒斯坦“入联”遭美阻挠，联合国一票否决

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸