202509 论文阅读-Evidence triangulator: using large language models to extract and synthesize causal evidence across study designs

来源:nature

作者:Xuanyu Shi、Wenjing Zhao、TingChen、JianDu

单位:北京大学多部门、爱尔兰都柏林城市大学等

发表时间: 2025年07月

一、背景

背景:医学与生命科学中,大量关于同一暴露–结果关系的证据分散在不同研究设计(RCT、观察研究、动物实验、体外实验)中,人工难以快速整合,现有系统综述也难以及时、全面、因果化地给出统一结论。

核心:基于这一背景,论文提出了 Evidence Triangulator 框架,利用 LLM 自动从不同类型研究中抽取因果证据(暴露–结果对、效应方向、统计显著性),通过跨设计的证据三角合并计算“收敛度”,从而在文本层面完成因果链的量化验证与可信度评估。

研究设计偏差对比表展示了 RCT、动物实验、观察研究等各自可能的偏差类型,比如混杂变量、选择偏差、外部有效性等。我们在抽证据时标注研究设计,是为了知道每条链在哪些方面可能不可靠。

二、框架整体工作流程

Evidence Triangulator 的方法流程图:抽取实体+研究设计 → 判断方向与显著性 → 多设计证据三角合并 → 可信度等级输出

这张图展示了 Evidence Triangulator 的整体流程。左上是‘抽取’部分 —— 从文献标题/摘要里识别暴露(Exposure)和结果(Outcome)变量,以及研究设计类型,例如 RCT、动物实验、观察性研究等。
接下来是关系抽取 —— 判断暴露与结果之间的方向性(是上升、下降,还是无变化)以及统计显著性。
然后是三角合并部分:把多个不同设计来源的证据组合起来,看这些证据是否在方向上一致(收敛),并通过 Convergency of Evidence 算法计算一个综合分数。
最后,根据证据的数量、一致性、来源设计等级,论文给出了一个 Level of Convergency(LoC)分类,表示某个暴露-结果对的可靠程度(弱/中/强)。
如果把‘经络刺激’看作暴露,把‘免疫分子变化’看作结果,也照这个流程做,可以量化每一步 —— 抽哪些文献、哪些设计、这些文献说‘上升’或‘下降’占比多少,最后打一个可信度标签。”

展示了如何从不同类型的研究(RCT、MR、观察研究)中抽取暴露-结果对,进一步提取方向性和显著性,并最终合并成可信度评价。我们后续的方法也可以模仿这一结构,把经络刺激和免疫结果放进去。

三、实验

不同设计证据的合并计算

这里展示了如何把 RCT、孟德尔随机化、观察研究的方向性结果(增加、减少、无变化)整合到一起,通过公式计算出一致性分数,从而给出强、中、弱的可信度等级。这就是证据三角验证的关键所在。

证据随时间的收敛趋势

这张趋势图展示了从 1980 年到现在,不同研究方向性证据的比例是如何变化的。绿色代表增加关系,红色代表抑制,黄色代表无显著变化。可以看到随着研究积累,证据逐渐收敛到某一个方向,这说明 triangulator 能帮助我们捕捉证据随时间的收敛性。

四、论文总结

论文提出了一个基于 LLM 的因果证据三角合并框架,实现了跨研究设计的因果链抽取、定量合并与证据收敛度评估。
(1)因果对抽取:统一 prompt,让 LLM 从论文文本中识别“暴露–结果”对,并抽取效应方向(增加 / 减少 / 无变化)与显著性。
(2)研究设计分类:自动区分 RCT、观察研究、动物实验、体外实验等不同设计,并标记每条因果证据的来源。
(3)定量三角合并:将来自不同设计的证据进行对齐,计算方向一致性与统计显著性,生成“evidence convergence score(证据收敛度)”。

五、对齐思考

(1)Triangulator → 证据收敛度:不同来源的证据如何相互印证:这篇 Nature Communications 的工作提出了一个非常有启发性的方法,它利用 LLM 从不同研究设计里抽取因果对,然后通过证据三角合并来量化一致性,也就是我们说的证据收敛度。但是,他们主要解决的是‘证据够不够一致’的问题,还没有触及到‘因果逻辑是不是稳健’。比如某些关系在多个研究里出现,但它可能并不是因果,而只是相关。
(2)补充 → 反事实验证:因果链条是否稳固:所以我在这个方法基础上补充了反事实因果推理,来验证逻辑的稳健性。也就是说,不仅要看证据是不是收敛,还要验证如果没有这个因,会不会依然出现果。
(3)双引擎 → 逻辑 + 可信度:既有证据的广度,又有逻辑的深度:最后我形成了一个双引擎框架:一方面保证逻辑正确性(反事实验证),另一方面保证证据可靠性(三角合并)。这样我们得到的经络–免疫因果链,既有逻辑可解释性,又有循证可信度。