来源:arXiv(ICLR 2026 投稿)
作者:Guiyao Tie, Shaohui Zhang, Chenxi Wu, Xueyang Zhou等
单位:香港科技大学(HKUST)及相关研究机构的研究团队
发表时间: 2026 投稿,未接收
一、论文介绍
背景:当前大语言模型虽通过CoT提升了复杂任务的推理能力,但其推理过程缺乏因果约束,容易出现跳步推理与关系混淆等不可信问题,导致中间推理难以验证,限制了模型在高可靠场景中的应用。
核心: 针对上述问题,论文提出 Causal-CoT 框架,创新性地将线性推理链重构为因果图(DAG)驱动的结构化推理过程,并结合图增强与基于 do-calculus 的干预式验证机制,对推理过程进行显式建模与可验证推断,从而提升推理的可靠性与可解释性。
二、案例对比
(a)通过“烤面包→烟雾→警报”例子对比标准CoT与Causal-CoT,展示后者能纠正逻辑谬误(如“肯定后件”),实现答案与推理的双重验证。
(b) 在数学、常识、因果三类数据集上,对比不同LLM使用Causal-CoT后的平均准确率,证明其普遍优于标准CoT。

用最直观的例子说明动机。展示标准CoT犯了“肯定后件”(有烟=有火灾)的逻辑谬误,而Causal-CoT通过画图排除了虚假联系。
❌ Standard CoT: 答案对,但推理存在逻辑谬误(引入无关的“火灾”节点)。
✅ Causal-CoT: 答案对,且通过构建DAG拒绝了虚假因果链接,实现“过程与结果的双重验证”。
三、方法框架
阶段I如何从前提和假设中提取节点构建初始DAG;
阶段II如何通过内部Prompt或外部检索(Web/KG/RAG)来丰富和增强DAG(如增加中介变量、混杂因素);
阶段III如何根据不同的路径类型执行do-演算进行因果效应估计与最终验证。

四、实验
主实验性能对比:详细列举了9个代表性LLM在CAUSALNET、E-CARE、MATH、AIME、CSQA、GPQA等7个数据集上的准确率。通过数值和红绿色标注,清晰展示了Causal-CoT相比标准CoT的提升幅度(特别是在GPQA上平均提升超20%)

准确率与效率权衡雷达图:效率成本极低:仅增加 1.15x~1.35x 运行时间(虚线几乎不缩水)准确率收益显著:实线大面积外扩。对比之下,引入外部检索的方法(WS)效率暴跌且准确率不稳。

人类验证DAG的错误归因分析表:Δr<0:部分模型最终准确率下降
Δs>0:但人工验证发现,模型构建的因果图是正确的!
性能瓶颈不在于“Causal-CoT框架结构”,而在于“LLM底层的世界知识不足”,证明了本框架的可靠性。

五、论文总结和对齐思考
论文提出因果推理框架 Causal-CoT,可以理解为将“经络–免疫关系”从解释性描述升级为可验证的因果结构,主要包括三点:
(1) 因果结构建模:将原本用语言描述的推理过程,转化为“经络→系统→免疫通路→疾病”的因果关系图,使跨域关系从“讲出来”变为“结构化表示”;
(2) 因果结构增强机制:针对经络与免疫之间缺失的桥接环节,自动补充中介机制(如神经-免疫调节等),使因果链更加完整合理;
(3) 基于干预的因果验证机制:通过“改变某个关键因素是否影响结果”的方式,对因果关系进行验证,使跨域对齐从“看起来合理”提升为“因果上成立”;
技术创新——逻辑思维推理框架:借鉴 Causal-CoT 将线性推理链重构为因果图(DAG)的思想,可在现有“经络链 + 免疫链”的基础上,引入显式因果结构约束:在融合阶段前,将两条链统一映射为因果结构(如“经络→系统→通路→炎症”),并对关键路径进行结构一致性对齐,从而避免当前仅基于证据权重融合带来的“语义对齐但因果不一致”问题,实现从“链级融合”向“结构级对齐”的升级。
技术目标——跨域知识结构对比:参考 Causal-CoT 的图增强机制,可将现有逐边证据匹配方式升级为跨域因果路径补全:在“免疫因子→疾病”与“经络证型→疾病”之间,主动引入中介机制(如神经-免疫调节、微循环变化等),构建“经络→中介→免疫”的桥接路径,从而提升跨域对齐的完整性与生物学合理性,使对齐不再停留在表层概念连接,而是建立在共享因果机制之上。
场景功能——食养通:借鉴了 Causal-CoT 中“因果结构建模 + 干预验证” 的思想,把原来“吃什么对身体好”的经验推荐,变成“吃这个是通过什么机制起作用、真的能不能改善状态”的可验证调理方案。