作者:Amer Farea a, Frank Emmert-Streib a
单位:Tampere University(坦佩雷大学)
来源:Engineering Applications of Artificial Intelligence
时间:2025.9.15
链接:[Understanding question-answering systems: Evolution, applications, trends, and challenges]
一. 研究背景
问答系统(QA systems)近年来引起了广泛关注,主要源于其弥合人类语言理解与机器智能之间差距的潜力。这些系统旨在快速提供准确且相关的回答,以自然语言形式提出的查询,体现了先进计算技术与人类交流复杂性的融合。
随着多媒体内容的普及和视觉理解在AI应用中的重要性增加,问答系统已从纯文本处理发展到多模态融合,进一步扩展了其应用范围和复杂性。这篇由Amer Farea和Frank Emmert-Streib撰写的综述文章,发表在《Engineering Applications of Artificial Intelligence》期刊上,主要概述了三种突出的问答范式:提取式问答(EQA)、生成式问答(GQA)和视觉问答(VQA)。首次建立QA系统的统一场论,将EQA、GQA、VQA三大领域纳入同一技术框架,揭示”模态融合是QA系统进化的核心驱动力”。

二. 论文概要
1. EQA systems(提取式问答系统):
一种直接从给定的文本或数据语料库中检索答案的QA系统。
系统接收两个输入:文本段落(T):包含可能答案的文本内容;问题(Q):用户提出的自然语言问题。
系统输出:答案片段(S):从文本中提取的能够直接回答问题的文本片段,即A = S。

2. GQA systems(生成式问答系统):
一种使用NLG技术构建答案的QA系统而不仅仅是从已有的文本源中检索答案。
系统接收两个输入:文本段落(T):提供上下文信息的文本内容;问题(Q):用户提出的自然语言问题。
系统输出:生成答案(A):根据问题Q和上下文T全新生成的文本序列,而非原文片段。

3. VQA systems(视觉问答系统):
代表了计算机视觉和自然语言处理技术的融合,使机器能够理解和响应关于视觉内容(如图像或视频)的问题。
系统接收两个输入:视觉内容(V):图像或视频等多模态视觉数据。问题(Q):关于视觉内容的自然语言问题。
系统输出:答案(A):基于视觉和文本理解生成的回答。

三. 核心思想
核心创新思想:多范式协同的模态融合与能力进化。发展趋势大致为:
EQA → GQA:从”提取”转向”生成”,提升灵活性(如BERT → GPT)。
GQA → VQA:从纯文本扩展到多模态,增强场景理解(如GPT-4V支持图像输入)。
融合方向:EQA+GQA(检索增强生成)、VQA+知识图谱(事实增强推理)。
本论文的核心创新在于构建了跨模态问答系统的统一进化框架,首次系统性整合三大范式,提出“模态融合驱动能力跃迁”的技术思想。其本质突破体现在三个维度:
- 范式协同的统一架构,打破传统QA系统孤立研究的局限,建立EQA – GQA – VQA三位一体模型:
EQA作为事实锚点(保证答案可追溯性)
GQA作为推理引擎(实现开放域生成与知识综合)
VQA作为感知延伸(跨越文本-视觉模态鸿沟)
通过动态范式切换机制(如VQA中融合EQA的视觉定位与GQA的自然语言生成),实现“提取 – 生成 – 感知”能力的互补增强。
- 多模态融合的层级化设计,提出跨模态语义对齐金字塔:
原始数据 → 特征提取层 → 模态对齐层 → 联合推理层 → 答案生成层
特征层:视觉CNN与文本Transformer并行编码
对齐层:对比学习(如CLIP)建立视觉-语言关联
推理层:图神经网络融合多模态知识图谱
生成层:条件语言模型(如VisualGPT)输出答案
突破传统单模态瓶颈,实现像素→语义→知识的三级跃迁。
- 能力进化的技术路径,揭示QA系统的三阶进化律:

第一阶:解决”答案存在性”问题(EQA确保答案可验证)
第二阶:解决”答案创造性”问题(GQA突破原文限制)
第三阶:解决”场景感知”问题(VQA实现物理世界交互)
形成从文本到现实、从检索到创造的完整能力闭环。
四. 对齐思考
- 未来研究方向:未来的研究方向可能包括更高效的多模态融合技术、更强大的推理能力、更好的事实一致性保证、更少的计算资源需求等。此外,将问答系统与其他AI技术(如知识图谱、强化学习等)结合也是一个有前景的方向。
- 问答系统的演进:问答系统已从简单的基于关键词匹配的系统发展到复杂的基于深度学习的系统,能够处理多种模态的信息。这种演进反映了人工智能领域的整体发展趋势,即从基于规则的方法到数据驱动方法,再到现在的预训练大型模型。
- 多模态融合的重要性:随着VQA系统的出现,我们看到了多模态融合在问答系统中的重要性。这反映了人工智能系统需要能够处理和整合多种类型的信息,以更好地理解和响应复杂的世界。
- 生成式模型的崛起:GQA系统的兴起,特别是大型语言模型如GPT系列的出现,标志着生成式AI在问答领域的崛起。这些模型不仅能够回答问题,还能够生成流畅、连贯且信息丰富的回答,使问答系统更加灵活和强大。