作者:Bei Chen, Gaolei Li, XiLin, Zheng Wang, Jianhua Li
来源:2024 ACM-TURC
单位:上海交通大学
时间:2024年
背景
基于大型语言模型(LLM)的多智能体系统在复杂任务(如问题解决、规划)中表现出显著潜力,但其安全性面临挑战,尤其是在协作过程中容易受到拜占庭攻击的影响。
基于LLM的多代理系统,通过共同讨论和交互式推理给定的问题,方法有role-playing和multi-agent debate等,但这些方法没有考虑评估过程的可信度问题。
与此同时,区块链在抵抗分布式系统中的拜占庭攻击颇有成效,如Pos共识算法来隔绝拜占庭节点,但目前没有关于通过区块链方法增强多智能体协作安全性的研究
论文贡献
1.提出了BlockAgents框架,该框架通过将区块链集成到角色分配、提案声明、评估和决策的统一工作流程中,实现了拜占庭式的健壮和可审计的多代理协调。
2.提出了一种结合基于权益的矿工指定和多轮辩论式投票的思想证明(PoT)共识机制。
3.为每个评估者设计了一种基于多指标提示的评估方法,通过考虑多个维度对每个提案进行评分。这种方法有效地区分了有效和异常答案,从而防止恶意代理获得奖励。
4.实验表明,BlockAgents具有拜占庭式的鲁棒性,因为它将中毒攻击对准确性的干扰降低到3%以下,并将后门攻击的成功率降低到5%以下。
方法设计
论文核心方法框架主要通过四个部分实现,分别是Threat Model(威胁模型)、BlockAgents架构、Proof-of-Thought共识机制、多指标提示评估。

1.威胁模型
恶意攻击分为中毒攻击和后门攻击,框架定义威胁模型来模拟真实攻击,假设系统中智能体总数为N,攻击者最多可操控N/3的智能体,实施毒化攻击(如篡改输出)或后门攻击(如在特定条件下插入恶意内容)。
2.BlockAgents 架构
BlockAgents 框架的核心在于将区块链技术引入多智能体协作,核心的协作流程分为四个步骤:角色分配、提案陈述、评估、决策

3.PoT共识机制
BlockAgents根据代理人的贡献给予奖励。此外,BlockAgents在角色分配阶段引入了矿工分配,在评估阶段引入了多轮投票机制。节点角色分为工人和矿工,共识机制的基础由节点的权益决定,主要部分分为奖励机制和PoS的矿工指定。
奖励机制:

工人奖励基于方案的评估得分score函数,矿工奖励基于辩论的轮数,轮数越多,辩论越困难,奖励越多,每个代理Ai的权益在最终决策时候由矿工Mj分配的奖励进行更新。
PoS的矿工指定:
在角色分配阶段,具有最高权益的节点被指定为初始矿工,有效的阻止恶意节点参与挖矿。
4.多指标提示评估
论文提出了一种多维评估提示,可以自动对多个答案进行评分。评估维度主要分为三部分
•事实一致性:方案是否与事实相符。
•冗余性:方案中是否存在不必要的内容。
•上下文因果相关性:方案的逻辑是否连贯。
框架实验
实验设置:
模型设置:采用GPT-3.5-Turbo作为代理的LLM
智能体数量:N=10(5个工人,5个矿工),辩论轮数R=2
数据集评估:GSM8K、MATH、MMLU
攻击设置:恶意智能体数量为2,后门攻击在输入含“2024”时触发,插入非法内容。
Baselines:MAD和Sampling-and-Voting框架方法
评估指标:针对不同攻击,不同评估方法
•中毒攻击:报告任务准确性,反映不同多代理框架性能
•后门攻击:报告攻击成功率(ASR),当触发短语出现在用户输入中,包含在最终输出答案中的比例
实验结果:


上图分别是中毒攻击抵抗性,后门攻击抵抗性,实验表明,论文提出的框架将中毒攻击对准确性的干扰降低到3%以下,并将后门攻击的成功率降低到5%以下。
消融实验:
消融实验分为三个方面:多维提示有效性、恶意智能体数量影响、参数影响

多维度指标提高了有效性,冗余和上下文相关性这两个评估维度有助于更准确和稳健的评估。

当恶意智能体数量增加时,BlockAgents仍能保持稳定表现。

准确性随最大辩论轮次的变化情况,当R=3,精度越高

中毒攻击下,矿工数量对于任务准确性的影响,当矿工数量等于代理数量一半时,系统效果最佳
总结和对齐思考
总结:
论文提出的BlockAgents框架成功将区块链技术融入基于LLM的多智能体系统,实现了可扩展、可审计的协作机制。通过PoT共识机制和多维评估方法,有效抵御了拜占庭攻击,显著提高了协作过程的鲁棒性和可信度
启发:
1.论文针对多智能体协作中的拜占庭困境,采用区块链+PoT+PoS+多维度提示评估来实现多智能体安全协作,课题框架着重驱动工作流方向,但关于多智能体的安全协作可以考虑通过共识机制来改善。
2.论文中的多维评估(事实一致性、冗余性、上下文相关性)具有参考价值,不仅可以考量多智能体协作质量和效率,还可以通过多维评估提示来隔离恶意智能体。