202506 论文研读-RefAI: a GPT-powered retrieval-augmented generative toolfor biomedical literature recommendation andsummarization

单位:Journal of the American Medical Informatics Association(JAMIA)

作者:Yiming Li , MS1 , Jeff Zhao2 , Manqi Li, MS1,3 , Yifang Dang , MS1 , Evan Yu, MS1 , Jianfu Li, PhD4 

年份:2024年5月21日

一、论文介绍

背景

  • PubMed 每年新增 >150 万篇生物医学文献,科研人员检索与综述负担巨大。
  • 传统 LLM 两种模式各有短板:
    1. 实时搜索 可找最新结果却常混入新闻博客;
    2. 离线 LLM 能写长摘要却经常“幻觉”引用。

核心
论文提出 RefAI 框架,通过 检索增强生成 (RAG) 与 多变量排序算法,结合 GPT‑4 turbo 的语言理解与写作能力,实现 高相关、高质量、可溯源 的医学文献推荐与摘要。框架示意见 Figure 1

二、论文核心

模块功能关键技术 / 数据流
1. 文献检索系统性抓取候选文献GPT‑4 自动拆解用户查询 → PubMed API → 获取题名/摘要/DOI 等元数据
2. 文献推荐从 1 k+ 候选中择优 10 篇SentenceTransformer 余弦相似度 ≥0.6 过滤;多变量得分 Total Score = 0.05 Rel + 0.5 Citation + 0.45 JIF;引用数按发表年份指数衰减处理
3. 文献摘要生成结构化回答GPT‑4 turbo 读取选中文献元数据(HTML 形式),输出多段摘要 + APA 文内引注 + 参考文献列表

作用  保证推荐文献可信、元数据准确(100%)、摘要连贯且可复查引用。

三、实验

  1. 用例设计
    • 两大主题 × 五个子议题(共 10 条查询):
      癌症免疫/靶向治疗医学领域 LLM 等。
  2. 对比系统
    ChatGPT‑4、ScholarAI、Gemini、PubMed(检索排序)
  3. 评价者
    10 名领域专家,Likert 5 点评分(相关性、质量、准确性、完整性、引用整合)。

主要结果

  • 文献推荐 :RefAI 在相关性 4.40/5、质量 4.01/5 均显著优于基线;研究型文献占 97%,无伪造条目。
  • 元数据准确率 :RefAI 与 PubMed 均为 100%;Gemini 仅 62%。
  • 文献摘要 :RefAI 在准确性 4.40/5、引用整合 4.60/5 显著领先(P < 0.001)。

四、论文总结与启发

1. 论文总结

  • 核心技术:检索增强生成 (RAG) + GPT‑4;多变量排序权衡相关性、影响因子与引用量。
  • 关键方法:利用 GPT‑4 生成检索词和高质量摘要;用嵌入模型细粒度衡量主题一致性;全过程保留 DOI 确保可追溯。
  • 主要应用:为医学科研与临床提供快速、可靠的文献发现与综述,减少“幻觉”引用,提升写作效率。

2. 论文启发

  • 构建可解释的 RAG 逻辑链:检索‑推荐‑摘要各环节均有显式指标与阈值,可复现且易评估。
  • 跨模态思维融合:将传统检索指标(JIF/引文)与深度语义相似度结合,为医学 NLP 任务提供可参考范式。
  • 未来方向:拓展非 PubMed 来源(例如 preprint、专利)、缓解 LLM 上下文窗口限制、建立更大规模标准基准集。