作者:Fengqi Wang, Fei Li, Hao Fei, Jingye Li, Shengqiong Wu, Fangfang Su, Wenxuan Shi, Donghong Ji, Bo Cai
来源:ACL
单位:Wuhan University;National University of Singapore
发表日期:2022.12
论文介绍
背景动机
1.大语言模型(LLM)在长文本理解、多跳推理和语义生成方面展现出强大能力,为文档级与跨文档信息抽取任务提供了新的技术可能。
2.现有关系抽取方法多依赖句子级或单文档建模(SentRE / DocRE),难以有效建模跨文档实体关联与多路径推理过程,限制了知识获取的完整性。
3.当前基于 LLM 的关系抽取方法普遍采用“枚举所有关系作为提示词”的方式,随着关系规模扩大将面临效率低、噪声大和可扩展性差的问题。
研究目标
提出一种 以实体为中心的跨文档关系抽取模型,减少跨文档场景中的噪声干扰,提升关键信息建模能力。
利用 桥接实体 构建有效的文档上下文筛选机制,增强跨文档关系推理所需的语义连贯性。
通过 跨路径实体关系注意力 建模多文本路径间的依赖关系,在 CodRED 数据集上实现性能显著提升。
核心内容



实验评估


论文总结
1.现有跨文档关系抽取方法在构建输入时容易引入大量无关上下文,且通常将不同文本路径独立建模,难以有效利用路径之间的实体关联信息,限制了跨文档关系推理的准确性。
2.提出以实体为中心的跨文档关系抽取模型 ECRIM,通过引入桥接实体设计实体驱动的文档上下文过滤机制,减少噪声干扰;同时构建跨路径实体关系注意力模块,在 bag 级别显式建模不同文本路径之间的关系依赖,实现多路径联合推理。
3.在 CodRED 数据集上的实验结果表明,ECRIM 在 F1 和 AUC 等指标上显著优于现有方法,验证了实体中心建模与跨路径关系交互在跨文档关系抽取任务中的有效性。
启发思考
1.1技术创新-逻辑思维推理框架:AutoRE 的 RHF 范式通过“关系 → 主语 → 事实”的逐步缩小搜索空间,为文档级抽取提供了一种可迁移的语义拓扑计算方法。该思路可应用于食品安全文本中:先识别文档蕴含的法规/属性关系,再定位关键实体主体,最终生成结构化三元组,实现从半结构化文本到可计算语义关系的自动转换,为知识拓扑的构建提供更精细的抽取路径。
2.1技术目标-专业手册公共服务:ECRIM 中的实体驱动上下文过滤与跨路径关系建模,为专业文档解析提供了可借鉴的技术路径。在食品安全标准、营养指南等领域,可围绕“成分—限量—适用条件”等核心实体,跨文档整合分散条款与说明性文本,实现高质量、多来源知识的统一建模,为构建可持续更新的专业知识库提供技术支撑。
3.1场景功能-食养通:借鉴 ECRIM 的跨文档、多路径推理思想,可以在食品与营养领域构建更具推理能力的知识图谱,实现对成分限制、健康风险与人群适配关系的联合建模。这为“食养通”等应用场景提供了从文本理解到结构化知识推理的完整技术基础,有助于支持成分查询、风险提示与个性化饮食建议等功能,提升健康饮食场景下系统的可解释性与实用价值。