华人博士用强化学习回收了SpaceX火箭 | 开源

聚德富 · 发表于 2021-11-16 23:17:14

博雯发自凹非寺
量子位报道 | 公众号 QbitAI

马斯克旗下的SpaceX可以说带火了“火箭回收”这一话题。
这不，连粉丝们都已经开始摩拳擦掌，用自己的方式挑战起了这个技术难题。
例如一位来自密歇根大学的华人博士，就用强化学习试了一把回收火箭！
他根据现实中的星舰10号一通进行模拟，还真在虚拟环境中稳稳地完成了悬停和着陆！

华人博士用强化学习回收了SpaceX火箭 | 开源第1张图片

这个项目迅速在Reddit上引发了大批网友们的关注：

华人博士用强化学习回收了SpaceX火箭 | 开源第2张图片

那么，他是如何实现的呢？
给火箭回收设立“奖励机制”

要在模拟环境中回收火箭，那么大一只构造复杂的火箭肯定是不能直接抱来用的。
于是，这位SpaceX的铁杆粉丝首先基于气缸动力学，将火箭简化为一个二维平面上的刚体：

华人博士用强化学习回收了SpaceX火箭 | 开源第3张图片

这个火箭的底部安装有推力矢量发动机，能够提供不同方向的可调的推力值（0.2g，1.0g和2.0g）；同时，火箭喷嘴上还增加了一个角速度约束，最大转速为30°/秒。
火箭模型所受到的空气阻力则设定为与速度成正比。
现在，这个模型的一些基本属性就能够以下面两个集合来表示：

而“火箭回收”这一流程，则被分为了悬停和着陆两个任务。
在悬停任务中，火箭模型需要遵循这样一种奖励机制：

着陆任务则基于星舰10号的基本参数，将火箭模型的初始速度设置为-50米/秒，方向设置为90°（水平方向），着陆燃烧高度设置为离地面500米。

华人博士用强化学习回收了SpaceX火箭 | 开源第4张图片

△星舰10号发射和着陆的合成图像

火箭模型在着陆时同样需要遵循这样一种“奖励机制”：
当着陆速度小于安全阈值，并且角度接近竖直0°时，就会受到最大的“奖励”，也会被认为是一次成功的着陆。
总体而言，这是一个基于策略的参与者-评判者的模型。
接下来就是进行训练：

华人博士用强化学习回收了SpaceX火箭 | 开源第5张图片

最终，在经历了20000次的训练后，火箭模型在悬停和着陆两个任务上都实现了较好的效果：

华人博士用强化学习回收了SpaceX火箭 | 开源第6张图片

最终，模型得到了很好的收敛效果：

华人博士用强化学习回收了SpaceX火箭 | 开源第7张图片

而这枚模拟环境中的伪·星舰10号，也就像开头展示的那张动图一样，学会了腹部着陆，稳稳地落地了。
下一步：增加燃料变量

这一项目一经发出，就引来了红迪众多网友的围观和称赞。
有人觉得用强化学习来解决传统任务非常有趣，因为它具有更好的鲁棒性。
作者也在下方回复表示：现实中恶劣的环境条件可以成为环境制约因素，而强化学习则能在一个统一的框架内解决这些问题。

华人博士用强化学习回收了SpaceX火箭 | 开源第8张图片

不过在称赞之余，也有网友提出了最直接的这样一个问题：

既然我们已经可以使用经典控制方法找到这些任务的最优解，那为啥SpaceX之前没人做？

下方有人解答到：这或许是因为之前的数字控制系统、传感器等技术并不成熟，采用新方法就意味着要重新设计火箭的关键部分。
这也就是控制系统层面之外的“工程类的问题”，而SpaceX正是在这些相关领域中做了改进。

华人博士用强化学习回收了SpaceX火箭 | 开源第10张图片

而那些较为传统保守的航天航空工业则会使用使用凸优化（Convexification）来解决火箭着陆问题。
也就是评论区有人贴出的这篇论文中提到的方法：

华人博士用强化学习回收了SpaceX火箭 | 开源第11张图片

不少评论也为开发者提供了下一步开发的新思路，比如这条评论建议将“剩余燃料”也作为一个变量，模型燃料的减少或耗尽也是现实中的一个重要影响因素。
作者欣然接受了这一建议：是很容易添加的有趣设置，安排！

华人博士用强化学习回收了SpaceX火箭 | 开源第12张图片

密歇根大学华人博士

开发者已经为这一项目建立了一个网站，在主页他这样介绍到：

这是我的第一个强化学习项目，所以，我希望通过这些“低水平代码”尽可能地从头实现包括环境、火箭动力学和强化学习agent在内的所有内容。

作者叫Zhengxia Zou，是一位来自密歇根大学博士，主要研究计算机视觉、遥感、自动驾驶等领域。

华人博士用强化学习回收了SpaceX火箭 | 开源第14张图片

他的论文曾被 ICCV 2021、CVPR 2021等多个顶会收录：

华人博士用强化学习回收了SpaceX火箭 | 开源第15张图片

下载链接：
https://github.com/jiupinjia/rocket-recycling
项目主页：
https://jiupinjia.github.io/rocket-recycling/
参考链接：
https://www.reddit.com/r/MachineLearning/comments/qt2tws/pr_rocketrecycling_with_reinforcement_learning/
—完—
@量子位 · 追踪AI技术和产品新动态
深有感触的朋友，欢迎赞同、关注、分享三连վ&#39;ᴗ&#39; ի ❤

上一篇：有福利有剧情文大合集，女撩男，先走肾后走心，成年人爱情 ...
下一篇：教育部继续支持出国留学！2022申请季如何准备？

Switch_noob · 发表于 2021-11-16 23:18:11

关键还是能不能在实际环境中跑现实环境和虚拟环境比不可控变量还是太多了

蒙面滴33 · 发表于 2021-11-16 23:18:49

虚拟环境到实际环境基本上是10%和100%的差距。强化学习可能不太适合这条路，火箭成本多高，敢实机跑强化学习，失败一次你奖励ai个毛线[飙泪笑][飙泪笑][飙泪笑]你拿强化学习去开车都比这靠谱，失败了大不了剐蹭剐蹭

bao62214230 · 发表于 2021-11-16 23:19:21

实际中是不是也得火箭炸很多次才能learn出来怎么控制真火箭？

爱是苦涩001 · 发表于 2021-11-16 23:19:54

Toy model

beyond_liu · 发表于 2021-11-16 23:20:17

这有啥啊，看上去不比2013年DQN玩雅达利高级多少啊

有形无款 · 发表于 2021-11-16 23:21:10

这些神学院的教士们针会玩[捂嘴]

顺沟衣 · 发表于 2021-11-16 23:21:43

这不就是矢量版的LunarLander？Gym: A toolkit for developing and comparing reinforcement learning algorithms

TERRYKANE · 发表于 2021-11-16 23:22:26

这标题直接让RL领域缩寿10年。。

滇西一品堂 · 发表于 2021-11-16 23:22:57

这就有点跟在屁股后面干那个啥的感觉了

白金会员	积分	兔币	帖子
白金会员, 积分 3418, 距离下一级还需 1582 积分	3418	1869	1549
在线时间：0 小时	最后登录：2023-10-2

白金会员	积分	兔币	帖子
白金会员, 积分 3364, 距离下一级还需 1636 积分	3364	1843	1521
在线时间：0 小时	最后登录：2024-3-6

白金会员	积分	兔币	帖子
白金会员, 积分 3544, 距离下一级还需 1456 积分	3544	1930	1614
在线时间：0 小时	最后登录：2024-2-12

白金会员	积分	兔币	帖子
白金会员, 积分 3556, 距离下一级还需 1444 积分	3556	1961	1595
在线时间：0 小时	最后登录：2023-10-17

白金会员	积分	兔币	帖子
白金会员, 积分 3367, 距离下一级还需 1633 积分	3367	1856	1519
在线时间：0 小时	最后登录：2024-2-7

[问答] 华人博士用强化学习回收了SpaceX火箭 | 开源

关联主题

精彩评论10

辽宁94-110广东，周琦复出改变内线平衡，张

索尼Xperia 1 VI有望5月17日发布改动不小

土木工程院校排名出炉！学科特点分析，就业

王晶老婆罕现身！美貌不输一众“晶女郎”

以色列驻联合国代表：没料到哈马斯还潜伏在

主场16分完败广东！杨鸣公开批评：除了赵继

港股再大涨！汽车股、房地产股走高

说了不要给一诺公孙离，史上最水FMVP皮肤拥

LPL转会期爆料汇总，LWX已经被开除，EDG夏

议起复盘｜雄鹿出局赢家却是主帅里弗斯，最

鸡蛋大小！广州多地降下冰雹，“天空数次闪

万科，破鼓万人捶

日本扩大出口管制范围：项庄舞剑，意在沛公

选秀节目强势回归！盘点内娱选秀综艺发展史

抵制成功！田馥甄退出天津演出，直言很遗憾

张颂文新综艺《灿烂的花园》：口碑两极分化

余承东卸任华为终端BG CEO，何刚接任：背后

心肺复苏首次纳入河南郑州中考，按压力度是

辽宁94-110广东，周琦复出改变内线平衡，张

华为与苹果同日举办新品发布会

主角脸对女演员有多重要？看《无限超越班》

轰20很快对外公布，台中将：轰20完全隐形，

鸡蛋大小！广州多地降下冰雹，“天空数次闪

20岁谷爱凌惊艳颁奖礼，穿“黄金战袍”气场

花费53万竞买法拍房，拖延近一年多难收房;

万科，破鼓万人捶

我老公是国足！球员妻子开保时捷撞车后打人

“木头姐”谈特斯拉目标价，说对了吗

3个半小时，点球10-11，夺冠热门出局，黑马

巴勒斯坦“入联”遭美阻挠，联合国一票否决

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸