科技日报记者 都芃
不久前,现象级国产游戏作品《黑神话:悟空》(以下简称《黑神话》)发布,成为众多玩家热议的话题,其中诸多颇具难度的游戏关卡让不少资深玩家都感到有些吃力。近日,淘天集团未来生活实验室算法工程师尝试利用多模态大模型体验《黑神话》,探索大模型在特定场景中的能力边界,取得令人惊喜的效果。目前,相关研究成果已上线论文预印本网站arXiv。
《黑神话》是典型的动作角色扮演类游戏(ARPG),在当前大模型研究领域,有不少研究者选择将该类游戏作为研究平台,采用纯视觉输入、复杂动作输出的模式,测试大模型在特定场景下的性能表现。其中,纯视觉输入是指模型仅通过理解和分析游戏截图进行决策,而复杂动作输出则需要模型生成并执行复杂而连续的动作,例如战斗场景中的精确操作。
但想要实现让多模态大模型控制游戏角色,现有研究需要克服两大困难,一是直接视觉输入的挑战。由于大模型所需的环境数据不一定能通过游戏API(应用程序编程接口)获取,因此学习从视觉输入中进行推理成为一种更直接的策略,特别是对于那些需要深入理解游戏界面的大型游戏而言,这给大模型带来了不小的挑战。二是面向动作任务的困难。在动作类游戏中,基于强化学习的框架仍然占据主导地位,但它们在特定任务上需要大量的训练时间,在迁移到其他任务上时拥有较差的泛化能力,表现往往不佳。
为了突破上述瓶颈,在此次研究中,技术团队提出了一个名为VARP Agent(视觉动作角色扮演智能体)的新框架,它直接以游戏截图为输入,通过一组多模态大模型的推理,最终生成可以直接操作游戏角色的代码,每个动作都是由各种原子命令组合而成的序列。
这些原子命令包括轻攻击、躲避、重攻击、恢复血量等。同时,该框架包含三个库:情境库、动作库和人类引导库。这些库可以被检索和更新,以存储用于自我学习和人类指导的密集知识。
技术团队定义了10个基本任务和2个挑战任务,其中75%的任务发生在战斗场景中。对于战斗任务,如果玩家角色击败了敌人,则认为任务成功;如果玩家角色被敌人击败,则认为任务失败。研究结果显示,该框架在基本任务和简单到中等难度的战斗中,胜率高达90%。但在面对高难度任务时,表现相对较差,可见其整体水平仍然不如高水平人类玩家。
本次研究中,算法工程师们探讨了当前多模态大模型在复杂动作角色扮演游戏中的决策能力,并引入了一种新颖的游戏互动方法。此外,研究中提供的人类操作数据集为未来研究提供了宝贵资源,使得在视觉复杂环境中研究该类游戏玩法和动作决策成为可能。展望未来,此次研究中获得的成果可以为设计能够应对更广泛挑战、更复杂的智能体提供重要参考。