近日,麻省理工学院的研究人员开发出一种新技术,让AI智能体能够思考更远的未来,寻找更合适的合作与竞争长期解决方案。
想象一个游戏规则:两支足球队在球场上PK,玩家们可以选择相互合作合作来实现目标,也可以选择与其他玩家们竞争,以取得游戏胜利。
创建一个可以像人类一样高效地学习竞争和合作的AI智能体并不容易,其中具有挑战性的关键难点是:让 AI 智能体能够预测其他智能体的未来行为。由于这个问题的复杂性,目前的方法机器学习方法往往是短视的;AI智能体只能猜测队友或对手接下来的几个动作。这并不利于他们的长期发展。
为解决这一难点,来自麻省理工学院、MIT-IBM Watson人工智能实验室,和其他实验室的研究人员开发了一种新方法,为AI智能体提供了一个更长远的学习视角。他们的机器学习框架能使AI智能体,不仅仅能够考虑其他合作或竞争的智能体接下来的几个动作,而是考虑到他们在更长远时间范围内的更多行为。然后,AI智能体会根据预测到的结果,相应地调整自身的行为,从而影响其他智能体接下来的行为,并得出最优的长期解决方案。
这个框架可以用于自动无人机在茂密的森林中寻找迷路的徒步旅行者,或用于自动驾驶汽车预测高速公路上行驶的其他车辆的动线来保护乘客的安全。
“当 AI 智能体进行合作或竞争时,最重要的是它们的行为在未来的某个时刻融合。在这一过程中有很多暂时性的行为,从长远来看并不重要。“我们真正关心的是如何达到这种融合,现在正好有一种数学方法可以实现。”麻省理工学院信息与决策系统实验室 (LIDS) 研究生、一篇描述该框架论文的主要作者Dong-Ki Kim说。
该论的高级作者是 Jonathan P. How,他是 Richard C. Maclaurin 航空航天学教授,也是MIT-IBM Watson人工智能实验室的成员。论文的共同作者包括MIT-IBM Watson人工智能实验室、IBM 研究院、Mila-Quebec人工智能研究所和牛津大学的其他人。这项研究将在神经信息处理系统会议上发表。