大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

说瞎话灭你九族 · 发表于 2024-2-12 13:18:06

西风发自凹非寺
量子位 | 公众号 QbitAI
基于大模型的Agent会玩宝可梦了，人类水平的那种！
名为PokéLLMon，现在它正在天梯对战中与人类玩家一较高下：

PokéLLMon能灵活调整策略，一旦发现攻击无效，立刻改变行动：

PokéLLMon还会运用人类式的消耗战术，频繁给对方宝可梦下毒，并一边恢复自身HP。

不过面对强敌，PokéLLMon也会“慌乱”逃避战斗，连续切换宝可梦：
最终对战结果是，PokéLLMon在随机天梯赛中取得49%的胜率，与专业玩家的邀请赛中取得56%的胜率，游戏战略和决策水平接近人类。
网友看到PokéLLMon的表现也很意外，直呼：
小心被任天堂封禁，这话是认真的。

甚至有网友喊话宝可梦大满贯选手、世锦赛冠军Wolfey Glick，来和这个AI一较高下：

这究竟是如何做到的？
PokéLLMon大战人类

PokéLLMon由佐治亚理工学院研究团队提出：

具体来说，他们提出了三个关键策略。

一是上下文强化学习（In-Context Reinforcement Learning）。
利用从对战中即时获得的文字反馈作为一种新的“奖励”输入，不需要训练就可以在线迭代完善和调整PokéLLMon的决策生成策略。
其中反馈内容包括：回合HP变化、攻击效果、速度优先级、招式额外效果等。
比如PokéLLMon反复使用相同的攻击招式，但由于对方宝可梦具有“干燥皮肤”的能力，对其没有任何效果。

在第三回合中对战中，通过即时上下文强化学习，PokéLLMon随后选择更换宝可梦。

二是知识增强生成（Knowledge-Augmented Generation）。
通过检索外部知识源作为额外输入，融入到状态描述中。比如检索类型关系、招式数据，模拟人类查询宝可梦图鉴，来减少未知知识导致的“幻觉”问题。
由此一来，PokéLLMon可以准确理解并应用招式效果。
比如面对犀牛进化形态的地面攻击，PokéLLMon未选择更换宝可梦，而是施展“电磁飘浮”，该技能在五回合内成功抵御地面攻击，使犀牛的“地震”技能无效。

三是一致性动作生成（Consistent Action Generation）。
研究人员发现，当PokéLLMon面对强大对手时，思维链（CoT）的推理方式会导致它因“恐慌”而频繁更换道具或宝可梦。
△PokéLLMon害怕，不断切换宝可梦
而通过一致性动作生成，可以独立多次生成行动，投票出最一致的，从而缓解“恐慌”。
值得一提的是，研究人员所用的模型自主和人类作战的宝可梦对战环境，基于Pokemon Showdown和poke-env实现，目前已开源。

为了测试PokéLLMon的对战能力，研究人员用它分别与随机天梯赛玩家和一名拥有15年经验的专业玩家对战。
结果，PokéLLMon与天梯随机玩家的胜率为48.57%，与专业玩家的邀请对战胜率为56%。

总的来说，PokéLLMon的优势在于：能准确选择有效招式，统一使用一个宝可梦击倒全部对手；展现出类人的消耗战略，使对手中毒后再拖延回血。
不过研究人员也指出了PokéLLMon的不足之处，面对玩家的消耗战略(拖延回血)很难应对：
容易被玩家的迷惑战术误导（迅速切换宝可梦，巧妙使PokéLLMon浪费强化攻击机会）：
团队简介

三位作者均为华人学者。

论文一作胡思昊，现为佐治亚理工学院计算机科学博士生，本科毕业于浙江大学，曾在新加坡国立大学担任研究助理。
研究兴趣包括用于区块链安全和推荐系统的数据挖掘算法及系统。

作者Tiansheng Huang，同为佐治亚理工学院计算机科学博士生，华南理工大学校友。
研究兴趣包括分布式机器学习、并行与分布式计算、优化算法以及机器学习安全性。

导师刘玲，现为佐治亚理工学院计算机系教授。1982年毕业于中国人民大学，1993年于荷兰蒂尔堡大学获博士学位。
刘教授主导分布式数据密集系统实验室（DiSL）的研究工作，专注于大数据系统及其分析的多个方面，如性能、安全和隐私等。
同时她也是IEEE Fellow，2012年获得IEEE计算机学会技术成就奖，还曾担任多个IEEE和ACM大会主席。
参考链接：
[1]https://twitter.com/_akhaliq/status/1754337188014100876
[2]https://poke-llm-on.github.io/

上一篇：外卖+瓶装水=无数微塑料入侵！最新：1升瓶装水，能释放出24万个微纳米塑料
下一篇：微软“便笺”将迎改版：界面变紫色/新增搜索框，有望集成OneNote

中级会员	积分	兔币	帖子
中级会员, 积分 411, 距离下一级还需 89 积分	411	233	178
在线时间：0 小时	最后登录：2024-6-14

[科技] 大模型玩《宝可梦》达人类水平！网友喊话世界冠军：是时候一较高下了

王思聪官宣第19段新恋情，懒理“私生女”事

俄客机在北极地区紧急迫降断成两截，41人都

汪峰女儿要出道：内娱也搞世袭制？入圈的京

老赖太多，银行下场招催收员，七险一金

G7发联合公报，不许单方面改变台海现状，支

女明星惊人的“腰臀比”，倪妮绝、热巴艳，

中国零食榜一变了：全国门店数冲破1万，反

南水北调成功，特旱河南局部暴雨来袭！权威

冷藏货车违规带人致8死村民称都为女性事

丰田继续停产三款违规车型至 7 月底，预计

苹果迟迟不入局，折叠屏手机能否成为手机厂

一到夏天生腌海鲜就被全网安利，但我劝你别

博主：华为Mate70系列已进入最后阶段影响

杨笠加盟《非诚勿扰》，大方公开择偶标准

G7达成协议，“将导致俄罗斯最强烈报复”

王思聪官宣第19段新恋情，懒理“私生女”事

“雷总，我们早上一般吃苦”

DNF手游：四大深渊副本对比

归队！国泰航空最后一架海外封存客机返港，

传高通骁龙8 Gen 4将涨价30%，骁龙8 Gen 5

董军就台海划红线不到48小时，美27家军火商

广州300亿巨无霸旧改表决通过，周边二手房

268元引争议，《黑神话：悟空》不得不走这

被严重低估的一个产业，这是最国际的中国供

莫迪连任还没等到中国贺电，先收到了中方的

苹果迟迟不入局，折叠屏手机能否成为手机厂

他救过隋文帝，助隋炀帝夺位，为何却被处死

最低租金每月600元，济南起步区首批保障性

完美复仇！微醺的曼城，红眼的曼联，滕哈赫

中国出口回暖

财神驾到

绿林道的

一抹伤

哇哇的哭

冷香丸