202505论文研读-KnowLab_AIMed at MEDIQA-CORR 2024:Chain-of-Though (CoT) prompting strategies for medical error detection and correction

作者:Zhaolong Wu, Abul Hasan,Jinge Wu, Yunsoo Kim, Jason P.Y. Cheung, Teng Zhang, Honghan Wu.
单位:Department of Orthopaedics and Traumatology, University of Hong Kong;Institute of Health Informatics, University College London.
来源:ACL 2024
时间:2024.6

一、论文背景

随着大型语言模型(LLMs)如GPT-4、Med-PaLM等在医疗领域的应用潜力逐渐显现,其在临床场景中的可靠性仍面临挑战。由于LLMs的训练数据可能包含错误或误导性信息,医疗记录中的错误检测与纠正成为关键问题。为此,MEDIQA-CORR 2024共享任务提出了三个子任务:
子任务1:二分类判断临床笔记是否存在医疗错误;
子任务2:定位错误所在的文本片段(句子ID);
子任务3:生成修正后的文本。
本文旨在通过结合思维链(CoT)提示和推理生成(Reason)方法,探索如何利用LLMs高效完成上述任务。

二、主要内容

该文提出了两种基于GPT-4的提示策略,并通过集成方法结合两者的优势:
(一)方法1:ICL-RAG-通过CoT提示增强(ICL-RAG-CoT)
1.核心思想:通过手动分析MS训练集和UW验证集的子集,总结出三类临床记录中普遍存在的错误类型(诊断、干预、管理),并设计对应的CoT提示模板,引导模型分步推理。

2.实现步骤:
第一阶段:先用标准提示指导GPT-4检测错误,并辅以ICL示例,若无结果则迭代应用CoT提示;
第二阶段:对于NLG任务,通过指定从第一阶段获得的预测错误句子编号(即句子ID)来独立提示 GPT-4。

(二)方法2:ICL-RAG-Reason
1.核心思想:使用包含ICL示例及其正确性或不正确性的相应原因的单个提示同时解决三个子任务。

2.实现步骤:
预生成原因:用GPT-4为训练数据生成解释性文本(如“为何此笔记正确/错误”);
结合相似样本:使用OpenAI嵌入检索语义相近的样本,混合正负例构建上下文提示;
多数投票:多次采样生成结果以提升一致性。

(三)集成方法
1.方法最初认为 ICL-RAG-CoT 方法对子任务 1 和子任务 2 的预测是正确的,而 ICL-RAG-Reason 对子任务 3 的预测也被认为是正确的。
2.然后,它通过从 MS 和 UW 验证和测试集中识别两种方法预测为不正确但具有不同错误句 ID 的临床记录来解决冲突。
3.最后,集成方法提示 GPT-4为其提供 ICL 示例,每个示例都包含一个错误,通过指定 ICL-RAG-CoT 预测的 Eorror 句子 ID 来生成更正后的句子。

三、实验评估

四、论文总结

贡献:
提出结合CoT和推理生成的提示策略,显著提升医疗错误检测的准确率;
集成方法在文本修正任务中表现优于单一方法。
局限性:
对子任务3(生成任务)的评估不够充分,导致整体排名较低;
未结合临床知识库验证生成结果的医学合理性。
未来方向:
探索开源LLMs在医疗下游任务中的应用;
引入知识库验证机制以提高生成内容的可靠性。