来源:arXiv
单位:University of Warwick、Zhejiang University、Beijing University of Posts and Telecommunications
发表时间:2025年03月
一、论文介绍
背景:当前知识密集型推理任务需要准确的信息检索和因果推理,而LLM在这些方面存在局限性,例如难以整合新知识、产生幻觉和解释推理过程。
核心:基于上述背景,本研究提出一种结合因果图和思想链的框架CGMT,提高推理的准确性和可解释性。首先,从原始知识图谱中提取因果关系显著的边,构建因果图,并通过因果挖掘算法进行更新。其次,通过思想链分步检索,在因果图中找到匹配的路径。最后,对路径进行评分、修剪和融合,确保答案的准确性和可解释性。
二、Causal-First Graph-RAG框架
Causal-First Graph-RAG三个阶段的总体框架:展示了包括因果图的构建和更新(基础)、思维链驱动检索(核心)、多阶段路径处理(优化)的三个阶段。

2.1基础-因果图的构建和更新

首先对原始知识图谱中的每条边进行因果性测试,确定其因果强度;
接着保留因果关系显著的边,形成因果图;
然后使用因果挖掘算法更新因果图中的边权重;
最后根据新的数据或研究结果,对因果图中的边进行更新或添加。
2.2核心-思维链驱动检索

用户提出问题、LLM生成思维链、分布检索、实体对识别、查询因果子图、候选路径生成、路径评分和剪枝、路径融合、反馈给LLM
2.3优化-多阶段路径处理

每个路径都基于以下三个标准进行评估:
CUI重叠(CUI Overlap):路径中的实体与问题中的实体重叠程度。例如,路径中的实体是否与问题中的关键实体一致。
语义重叠(Semantic Overlap):路径中的语义类型与问题中的语义类型重叠程度。例如,路径中的语义类型是否与问题中的语义类型一致。
长度启发式(Length Heuristic):路径的长度。路径越短,评分越高。
三、实验内容
CGMT方法在所有指标上均优于直接模型响应,特别是在CGMT(GPT-4o mini)上,精度提升了10%,展示了该方法在提高知识密集型任务模型性能方面的有效性。

提出的CGMT方法与传统的Graph-RAG模型进行比较

评估CGMT方法中各个组件的个体贡献,包括KG-only(仅知识图)、Remove LLM Enhanced(去除LLM增强)、Remove Enhancer(移除增强器)。

四、论文总结
这篇论文提出了,一种结合因果图和思想链的框架 ,其中CGMT的贡献和缺点可总结为三点:
1. 因果推理框架的创新与优化:提出了通过因果子图和CoT进行路径检索的框架,提升了推理的准确性和可解释性,但CoT的随机性影响了结果的稳定性。
2. 计算效率挑战:多阶段路径处理提升了答案质量,但计算成本高,影响了实时响应能力
五、对齐思考
CGMT框架的研究为中西医结合慢病调理的知识问答系统提供了关键技术启示:
1.因果优先的分层检索:在慢性疾病的知识库中,优先检索具有明确因果关系的边,若未找到合适路径,则补充语义相似度等宽泛边,确保因果信息优先,同时覆盖知识广度。
2.思考链引导的检索过程:对于慢性疾病知识库,可以将复杂的致病机理或干预机制问题分解为多个子问题,并针对每个子问题动态检索因果链。
3.多阶段路径增强策略:对慢性疾病知识库检索到的路径进行融合和评分,去除冗余和无关路径,保留与问题最相关的路径。