202505论文研读-VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought

来源:NeurIPS 2024

作者:Gabriel Sarch,Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki

单位:卡内基梅隆大学,Google DeepMind

一、背景

视觉语言模型(VLM)已取得令人瞩目的成果,但在复杂的多步骤任务中依然存在显著局限。这些任务需要代理能够理解长期上下文、进行多轮推理并从过去的经验中学习。受人类通过总结经验学习的启发,文章提出让 VLM agents 在执行任务时自动生成可复用的“化身思维程序”(Embodied Programs of Thought,EPOTs),作为未来任务的记忆库。与仅存储历史轨迹的被动记忆不同,EPOTs 能主动总结并提炼核心经验。

文章的主要研究问题是:如何让 VLM agents 在完成任务的同时,自动提取、总结并生成可复用的程序化经验,以便未来调用。

二、贡献

  1. 提出了新型的学习框架ICAL(In-Context Abstraction Learning):首次将多模态抽象学习与上下文记忆机制结合,使 VLM 能从噪声演示中提取结构化经验。
  2. 定义并实现了“化身思维程序”(EPOTs):引导代理总结任务中的关键子目标、因果关系、状态变化等认知抽象,并形成可调用的任务模板。
  3. 设计了双阶段抽象机制(自动 + 人类反馈):既能自动修正任务路径,又能融合人类语言反馈,持续优化抽象。
  4. 在多个任务中实现 SOTA 性能:包括 TEACh(家庭任务)、VisualWebArena(网页任务)、Ego4D(视频预测)等。

三、核心设计

总体架构:

每次迭代都从一条带噪声的轨迹开始,ICAL 分为两个阶段对其进行抽象:

  1. VLM抽象阶段:
    • 接收噪声轨迹ξnoisy、指令 I 和历史示例 {e1,…,ek};
    • 输出优化后的轨迹 ξoptimized和语言抽象 L
    • 抽象包括:
      • 任务与因果结构
      • 状态变化
      • 子目标分解
      • 状态变量筛选(与注意力机制类似)
  2. 人类反馈阶段:
    • 执行优化轨迹,失败时人类提供语言反馈 H(at,ot);
    • 模型结合反馈修正轨迹,并更新抽象:
    • 成功后将示例 e =(ξ′, L′ )存入记忆库 M

一旦轨迹成功执行,它将被存档至一个不断扩展的示例库中。该示例库既可用于模型训练,也可在推理时为代理提供上下文参考,以应对新的任务指令与环境。

部署时的检索增强(RAG):

  • 给定任务指令 I,从记忆库 M 中检索相似示例:
  • 用于生成最终动作序列或行动策略。

四、实验

  1. 实验环境

研究者在 TEACh 和 VisualWebArena 中测试了 ICAL 的任务规划能力,并在 Ego4D 基准测试中测试其动作预测能力。其中,TEACh 针对的是家庭环境中的对话式教学,VisualWebArena 则是多模态自动化网络任务,Ego4D 则是用于视频动作预测。

环境任务类型特点
TEACh家庭指令任务对话输入,具身执行
VisualWebArena多模态网页制作图文组合输入
Ego4D视频动作预测被动感知,无交互反馈

2. 指标

  • SR:任务成功率
  • GC:目标条件成功率
  • Edit Distance:名词 / 动作预测差异(视频任务)

3. 结果

  • TEACh:ICAL 提升 SR +8.6%,GC +12.6%,超越 SOTA HELPER;
  • VisualWebArena:ICAL 相比 GPT-4V 提升 +8.4%(相对 +58.7%);
  • Ego4D:ICAL 在使用 1/639 数据下逼近全监督性能。

五、总结

ICAL 提出了一种全新的多模态上下文学习机制,让 VLM 代理能够:

  • 从次优示例中自主学习;
  • 生成可解释、可迁移的抽象;
  • 在不同任务场景中不断优化策略。