设为首页|收藏本站|
开启左侧

[科技] 大模型玩《宝可梦》达人类水平!网友喊话世界冠军:是时候一较高下了

[复制链接]
说瞎话灭你九族 发表于 2024-2-12 13:18:06 | 显示全部楼层
 
西风 发自 凹非寺
量子位 | 公众号 QbitAI
基于大模子的Agent会玩宝可梦了,人类水平的那种!
名为PokéLLMon,现在它正在天梯对战中与人类玩家一较高低:
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第1张图片


PokéLLMon能灵活调剂战略,一旦发现进犯无效,立即改变行动:
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第2张图片


PokéLLMon还会应用人类式的消耗战术,频仍给对方宝可梦下毒,并一边规复本身HP。
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第3张图片


不里面临强敌,PokéLLMon也会“忙乱”回避战役,持续切换宝可梦:
终极对战成果是,PokéLLMon在随机天梯赛中获得49%的胜率与专业玩家的约请赛中获得56%的胜率,游戏计谋和决议水平接近人类。
网友看到PokéLLMon的表示也很意外,直呼:
谨慎被任天堂封禁,这话是认真的。
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第4张图片


甚至有网友喊话宝可梦大满贯选手、世锦赛冠军Wolfey Glick,来和这个AI一较高低:
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第5张图片


这究竟是若何做到的?
PokéLLMon大战人类

PokéLLMon由佐治亚理工学院研讨团队提出:
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第6张图片


具体来说,他们提出了三个关键战略。
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第7张图片


一是高低文强化进修(In-Context Reinforcement Learning)。
操纵从对战中立即获得的笔墨反应作为一种新的“嘉奖”输入,不需要练习便可以在线迭代完善和调剂PokéLLMon的决议天生战略。
其中反应内容包括:回合HP变化、进犯结果、速度优先级、招式额外结果等。
比如PokéLLMon频频利用不异的进犯招式,但由于对方宝可梦具有“枯燥皮肤”的才能,对其没有任何结果。
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第8张图片


在第三回合中对战中,经过立即高低文强化进修,PokéLLMon随后挑选更换宝可梦。
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第9张图片


二是常识增强天生(Knowledge-Augmented Generation)。
经过检索内部常识源作为额外输入,融入到状态描写中。比如检索范例关系、招式数据,模拟人类查询宝可梦图鉴,来削减未知常识致使的“幻觉”题目。
由此一来,PokéLLMon可以正确了解并利用招式结果。
比如面临犀牛进化形状的空中进犯,PokéLLMon未挑选更换宝可梦,而是发挥“电磁飘浮”,该技术在五回合内成功抵抗空中进犯,使犀牛的“地震”技术无效。
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第10张图片


三是分歧性行动天生(Consistent Action Generation)。
研讨职员发现,当PokéLLMon面临强大对手时,思维链(CoT)的推理方式会致使它因“发急”而频仍更换道具或宝可梦。
PokéLLMon惧怕,不竭切换宝可梦
而经过分歧性行动天生,可以自力屡次天生行动,投票出最分歧的,从而减缓“发急”。
值得一提的是,研讨职员所用的模子自立和人类作战的宝可梦对战情况,基于Pokemon Showdown和poke-env实现,今朝已开源
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第11张图片


为了测试PokéLLMon的对战才能,研讨职员用它别离与随机天梯赛玩家和一位具有15年经历的专业玩家对战。
成果,PokéLLMon与天梯随机玩家的胜率为48.57%,与专业玩家的约请对克服率为56%。
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第12张图片


总的来说,PokéLLMon的上风在于:能正确挑选有用招式,同一利用一个宝可梦击倒全数对手;展现出类人的消耗计谋,使对手中毒后再迟延回血。
不外研讨职员也指出了PokéLLMon的不敷之处,面临玩家的消耗计谋(迟延回血)很难应对:
轻易被玩家的迷惑战术误导(敏捷切换宝可梦,奇妙使PokéLLMon浪费强化进犯机遇):
团队简介

三位作者均为华人学者。
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第13张图片


论文一作胡思昊,现为佐治亚理工学院计较机科学博士生,本科结业于浙江大学,曾在新加坡国立大学担任研讨助理。
研讨爱好包括用于区块链平安和保举系统的数据挖掘算法及系统。
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第14张图片


作者Tiansheng Huang,同为佐治亚理工学院计较机科学博士生,华南理工大黉舍友。
研讨爱好包括散布式机械进修、并行与散布式计较、优化算法以及机械进修平安性。
大模子玩《宝可梦》达人类水平!网友喊话天下冠军:是时辰一较高低了 第15张图片


导师刘玲,现为佐治亚理工学院计较机系教授。1982年结业于中国群众大学,1993年于荷兰蒂尔堡大学获博士学位。
刘教授主导散布式数据麋集系统尝试室(DiSL)的研讨工作,专注于大数据系统及其分析的多个方面,如性能、平安和隐私等。
同时她也是IEEE Fellow,2012年获得IEEE计较机学会技术成就奖,还曾担任多个IEEE和ACM大会主席。
参考链接:
[1]https://twitter.com/_akhaliq/status/1754337188014100876
[2]https://poke-llm-on.github.io/


上一篇:外卖+瓶装水=无数微塑料入侵!最新:1升瓶装水,能开释出24万个微纳米塑料
下一篇:微软“便笺”将迎改版:界面变紫色/新增搜索框,有望集成OneNote
 
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

排行榜
活跃网友
返回顶部快速回复上一主题下一主题返回列表APP下载手机访问
Copyright © 2016-2028 CTLIVES.COM All Rights Reserved.  西兔生活网  小黑屋| GMT+8, 2024-3-1 21:16