202412 论文研读-Qilin-Med: Multi-stage Knowledge Injection Advanced Medical Large Language Model

来源:arXiv

作者:Qichen Ye、Junling Liu、 Dading Chong、Peilin Zhou、 Yining Hua等

单位:Peking University、Harvard T.H. 、University of Oxford等

发表时间:2024年4月17

一·、论文介绍

  1. 背景:将LLMs整合到医疗保健领域中,这具有巨大潜力,但也面临挑战。从头开始预训练专门领域的LLMs,如医学领域,资源消耗巨大且往往不可行。另一方面,完全依赖于SFT可能导致模型过于自信的预测。
  2. 核心:本研究介绍了Qilin-Med,一个高级医疗LLM,它通过多阶段训练方法,包括CPT、SFT、DPO和RAG技术,提高了模型在医疗任务中的表现和可靠性。同时,研究团队构建了包含问答、文本、知识图谱和对话的中医ChiMed数据集,并分为三个训练阶段,利用RAG技术进一步提升模型性能。

二.核心内容

  1. Qilin-Med构建过程:第一阶段进行特定领域的持续预训练,强化医学基础知识;第二阶段应用指令监督微调来激发模型的解释和响应能力;第三阶段的目标是使模型输出与人类偏好保持一致。

2. CPT:在Qilin-Med模型的CPT阶段,研究者利用了包含医学问答、纯文本、知识图谱和对话的ChiMed-CPT数据集。为了增强模型对相关医疗文档的检索能力,他们采用了硬负样本技术,将不相关的文档标记为负样本并纳入训练过程。这一阶段的核心训练目标是训练模型预测文本中下一个词的能力。具体而言,模型在给定句子的前t个词(xi,1…t),需要预测第t+1个词(xi,t+1)。通过最大化预测下一个词的概率,模型的参数θ得到优化,从而提升模型在医学文本理解和生成方面的表现。

3. SFT:在Qilin-Med模型的SFT阶段,研究者使用了包含医学指令和预期回答的ChiMed-SFT数据集。为了增强模型对医学指令的理解和执行能力,他们采用了MedPrompt技术,将检索到的文档与指令结合,形成模型的输入。在这一阶段,模型被训练以学习如何基于输入的问题或指令(Xi)以及之前的回答(yi,1…t)来预测下一个词。这种训练方法有助于模型在医疗咨询或问答等特定任务上表现得更好,提高其对医学术语的理解和在生成回答时的准确性及连贯性,提供更精确的医疗信息和建议。

4. DPO:在Qilin-Med模型的DPO阶段,研究者利用了ChiMed-DPO数据集,该数据集由医学指令和对应的人类偏好及非偏好回答组成。每个训练样本是一个包含提示、首选响应和拒绝响应的三元组。通过DPO技术,模型被训练以优化其回答的概率分布,倾向于生成更符合人类偏好的回答。对于每个问题(Xi),我们提供两个回答,一个是好的(Yi,1),一个是不好的(Yi,2)。模型需要学习提高好回答的概率,同时降低坏回答的概率。这里的θ0是初始参数,β是一个控制两个项相对贡献的超参数。通过这种方式,模型能够更好地符合人类的偏好。

三、实验内容

Qilin-Med模型在不同训练阶段的性能进行评估

  1. 在CMExam实验中,结果表明特定领域的持续预训练和监督微调可显著提高模型在医学知识理解方面的能力。

2. 在C-Eval实验中,表明模型在通过结合持续预训练、监督微调和 RAG 技术,在医学知识问答任务上取得了显著的性能提升。

3. 在Huatuo-26M实验中,Qilin-Med-CPT在医学对话任务上表现良好,表明其对医学知识的理解和生成能力得到了提升。

4. CMExam数据集上的会话案例:Qilin-Med-7B-CPT和Qilin-Med-7B-SFT产生更相关和信息丰富的反应。

四、论文总结与对齐思考

论文总结:

论文提出的Qilin-Med 模型的多阶段训练框架,构建了一个包含医学问答、文本、知识图谱和对话的ChiMed数据集,并将其分为三个训练阶段,以进一步通过 RAG 技术增强模型性能:

1)首先通过CPT阶段,使用 ChiMed-CPT 数据集增强对医疗知识的理解。

2)随后,SFT阶段利用 ChiMed-SFT 数据集,进一步提升模型在特定医疗任务上的表现。

3)为了使模型输出更符合人类偏好。引入了DPO阶段,使用 ChiMed-DPO 数据集进行训练。

4)最后,通过RAG与CPT、SFT和DPO等训练方法结合,进一步增强模型性能。

对其思考:

  1. 可借鉴 Qilin-Med 论文的多阶段训练框架,并结合RAG技术:
    1)在 CPT 阶段通过大规模中西医文本数据预训练模型,以学习基础知识;
    2)在 SFT 阶段利用RAG技术对模型进行微调,使其能够针对具体的中西医问答任务检索并整合相关知识片段;
    3)在 DPO 阶段,通过偏好学习调整模型对中西医知识的检索和融合策略,从而在模型训练过程中实现中西医知识的深度融合。
  2. 论文提到ChiMed 数据集中的知识图谱,因此构建构建一个融合中西医概念和关系的知识图谱作为RAG技术的检索数据库,帮助模型更好地理解和检索中西医知识。