202504 论文研读-JARVIS-1: Open-world Multi-task Agents with Memory-Augmented Multimodal Language Models

来源:T-PAMI 2024

作者:Zihao Wang,Shaofei Cai,Anji Liu,Yonggang Jin,Jinbing Hou,Bowei Zhang

单位:北京大学

一、背景

实现具有人类般规划与控制能力的通用智能体,在开放世界中基于多模态观测进行任务完成,是迈向更强大通用智能体的关键里程碑。现有方法虽然可以应对某些具有长时序的开放世界任务,但在面对可能无限多的开放世界任务时仍然存在困难,并且缺乏随着游戏时间推移逐步提升任务完成能力的机制。

此外,文章还提出当前的智能体面临三大主要挑战:

  1. 感知多模态的环境输入,例如图像、视频,以及自然语言指令和反馈,用于任务规划。这主要由于现有基于LLM的规划器在处理多模态数据方面能力有限。
  2. 具备终身学习与进化的能力,即能够自发提出新任务并自我提升。这是实现通用智能体的关键特征。
  3. 执行一致且准确的长期规划,这需要多轮的知识密集型、逻辑推理型对话,而这对当前的LLM来说仍是巨大挑战。

二、贡献

文章提出了 JARVIS-1,一个全新的智能体,能够稳定地从用户和环境的多模态输入中生成长期任务的计划,并将这些计划转化为 Minecraft 游戏中的具身动作控制。(Minecraft 是一个流行但极具挑战性的开放世界环境,广泛用于测试通用智能体的能力)

具体贡献如下:

  1. 从LLM到MLM:将多模态基础模型 MineCLIPLLM组合,构建出了一个多模态语言模型(MLM)。使得智能体不再“盲目”规划,而是能够感知当前情境并作出相应计划。此外,借助多模态感知,智能体还能获得丰富的环境反馈,从而更容易实现自我检查与解释,修复计划中的潜在错误,提升交互式规划能力。
  2. 多模态记忆机制:引入了多模态记忆模块,用来存储以往成功的规划经验及相关场景。通过检索相关记忆条目,智能体可以在上下文中利用自身的游戏经验,从而增强规划能力。与传统的强化学习或规划方法相比,JARVIS-1 无需模型更新,因为 MLM 可以通过上下文直接利用这些经验。
  3. 自我指令与自我进化:通过自我指令主动提出新任务,并将获得的经验存入多模态记忆中,从而推动更强的推理和规划能力。

三、核心设计

JARVIS-1是一个多模态智能体架构,其中包括交互式规划器、目标条件控制器和由多模态经验构成的多模态记忆系统。

在接收到任务和当前观测后,JARVIS-1 首先利用多模态语言模型(MLM)生成一个多模态查询,从记忆中检索相关的规划经验。随后,这些经验连同任务指令一起用于提示基于 MLM 的规划器。该规划器结合自身的预训练知识与检索到的参考计划,最终生成一系列 K 个短时目标 g1, …, gK​,交由控制器执行。当计划成功执行后,将连同任务指令和当时的智能体状态一起存入记忆中。

1. 基于 MLM 的交互式规划

采用零样本的多模态语言模型(MLM)作为规划器,并结合交互式规划框架来解决动态观测执行长时任务的挑战。

  • 利用 MLM 进行情境感知规划:将视觉输入转化为文本描述。
  • 使用自我检验进行规划验证:模拟执行流程,预判是否达成目标,提前修改。
  • 利用环境反馈进行交互式规划:结合失败原因与当前状态重新生成计划。

2.引入多模态记忆的规划机制

  • 采用检索增强生成(RAG)来增强 JARVIS-1 的长期规划能力。与以往 RAG 方法使用外部知识库不同,我们将收集到的多模态记忆作为知识库,并从中检索交互式经验作为示范提示,从而增强规划效果。
  • 多模态记忆结构:键值对记忆库,其中是多模态的,包括任务和该记忆条目被记录时的观测(即情境);是当时成功执行的计划。
  • 基于推理的查询生成:当接收到一个任务指令时,通过语言模型的推理能力将其分解为子任务或相关任务,并将其作为文本查询,用于检索参考计划。

3.智能体的自我提升机制

  • 探索阶段:JARVIS-1 依据当前能力选择任务 → 执行 → 存储经验。
  • 终身学习:随着记忆积累,能力提升(无需梯度更新),在后续游戏中成功率持续上升。

四、实验

环境设置:文章在《Minecraft》中评估 JARVIS-1,所选任务来自 Minecraft Universe Benchmark。选择使用《Minecraft》原生的人类界面,这适用于观察空间和动作空间。模型以 20 帧每秒的速度运行,并在交互时需使用鼠标和键盘界面。

任务设置:在《Minecraft》中,玩家可以获取上千种物品,每种物品有特定的获取条件或合成配方,在生存模式中,玩家必须从环境中获得物品,或通过合成/冶炼得到目标物品。文章在 Minecraft Universe Benchmark 中选择了超过 200 个任务进行评估,这些任务涉及可以在主世界中获得的物品。为便于统计,根据 Minecraft 的推荐分类将任务划分为 11 个组。由于任务复杂度不同,为每个任务设置了不同的最大游戏步数,该限制根据人类完成该任务的平均时间设定。

评估指标:默认情况下,智能体总是在生存模式下开始,且初始背包为空。当在规定时间内获得目标物品,即视为任务成功。

1.与其他基于大语言模型的多任务指令跟随智能体的比较,JARVIS-1 在所有元任务上都取得了最佳表现。

在 11 个任务组中(木头、石头、铁、钻石、食物等),JARVIS-1 表现显著优于现有方法,如 DEPS、ReAct、Inner Monologue 等,尤其在钻石组任务中提升显著。

2.基于不同语言模型的 JARVIS-1

使用 GPT-4、ChatGPT、开源 LLaMA2(原始和微调版)对比,结果显示:

  • ChatGPT 已接近 GPT-4 表现;
  • 微调后的 LLaMA2-13B 表现大幅提升;
  • LLaMA2-70B 原始模型缺乏 Minecraft 知识,表现较差。

五、总结

JARVIS-1 在以下方面实现了突破:

  • 对多模态输入具备感知与理解能力
  • 支持长期任务的稳定规划与执行
  • 具有自我生成任务、自我改进的能力
  • 无需梯度更新即可实现终身学习

这一工作为构建通用智能体迈出了重要一步,特别是在复杂、开放的环境中具备可持续进化能力。

六、启发

JARVIS-1通过建造一个视觉+语言能力的记忆库,使用历史成功的任务经验作为参考,在上下文中引导当前的任务规划,以及自我指导与自我改善机制,从而实现无需再度训练而持续进步的效果。在对抗性临时决策中,此类记忆功能更具可行性,通过对已有成功记忆库的检索,使得获取新策略的速度加快,临场效果实现具备可行性。