作者：Maxime Delmas, Lei Xu, André Freitas
发表单位：Idiap Research Institute (Switzerland); EPFL (Switzerland); University of Manchester (UK)
发表在：arXiv preprint (2026)

核心内容

针对现有 RAG 基于文档分块（Chunking）缺乏结构连接性，以及知识图谱（KG）基于三元组导致信息丢失的问题，本文提出了 ToPG（Traversal over Proposition Graphs，命题图遍历）框架。
ToPG 将知识库建模为异构图，包含三种节点：
1. 命题 (Propositions)：原子事实陈述，保留了细粒度语义
2. 实体 (Entities)：提供图的拓扑连接
3. 段落 (Passages)：保留原始上下文来源
提出了 “建议-选择”（Suggestion-Selection） 的迭代图遍历机制：
1. 建议：利用查询感知的 Personalized PageRank (PPR) 推荐相关节点
2. 选择：利用 LLM 作为反馈机制修剪无关命题，并为下一轮搜索播种
ToPG 支持三种适应不同查询复杂度的模式：Naive（简单事实检索）、Local（多跳推理）和 Global（宏观/抽象问答）。实验表明其在复杂多跳问答任务上显著优于现有基线
实验表明这样的方法在多个问答数据集上能展现出优越的效果

背景

标准 RAG 的瓶颈：基于文档块（Chunk）的检索往往包含大量无关噪音，且缺乏全局结构视图，难以处理需要连接离散证据的多跳推理（Multi-hop reasoning）问题。
结构化 RAG 的困境：
1. 传统的知识图谱（KG）强制使用 (主语, 谓语, 宾语) 三元组，严重压缩了文本信息，导致语义丢失。
2. 现有的图遍历策略通常仅依赖拓扑启发式（如随机游走、邻居节点），忽略了边与当前查询的语义相关性，导致搜索方向盲目。
命题级检索的兴起：将文本分解为去语境化的原子事实（Propositions）已被证明比粗粒度的段落更适合精准问答，ToPG 旨在将这种粒度优势与图的结构优势结合。

图 $G=(V, E)$ 包含三类节点：

这种结构中，命题充当了连接多个实体的“超边”，同时又扎根于原始段落。

ToPG 不依赖预计算的路径，而是动态地在图中导航：

建议 (Suggestion)：计算新的候选命题集 $S_{new} = \text{Suggest}(q, G, s_{old})$。
- 使用查询感知的 Personalized PageRank (PPR)。
- 转移矩阵 $M = \lambda T_s + (1-\lambda) T_n$ 结合了结构信息（$T_s$，图拓扑连接）和语义信息（$T_n$，节点与 Query 的相似度）。这使得游走既遵循图结构，又偏向与问题相关的区域。
选择 (Selection)：$s_{new} = \text{Select}(q, S_{new})$。
- 使用 LLM 对建议的命题进行相关性修剪（Pruning）。
- 保留的高质量命题成为下一轮迭代的“种子”。

Naive 模式：
- 针对简单事实型查询。
- 不进行图遍历，直接基于向量相似度检索 Top-K 命题。
Local 模式（核心创新）：
- 针对复杂多跳查询。
- 从初始查询开始，执行多次“建议-选择”循环。如果信息不足，LLM 会生成新的子问题（Sub-questions）来指导下一轮游走。
Global 模式：
- 针对抽象或概念性查询（如“X 如何影响 Y？”）。
- 首先将查询分解，通过多轮游走收集分布在图不同位置的“锚点命题”（Anchor Propositions）。
- 基于锚点识别图中的社区 (Communities)。
- 对每个社区生成中间答案，最后汇总成全面回复。

作者在 Simple QA (PopQA), Complex QA (HotPotQA, MusiQue) 和 Abstract QA (UltraDomain) 上进行了评估。

复杂问答表现：在多跳问答数据集（如 MusiQue）上，ToPG-Local 显著优于 GraphRAG 和 LightRAG。例如在 MusiQue 上，ToPG-Local (iter=3) 的 F1 分数为 47.0，而 GraphRAG 为 26.7。
消融实验：证明了“建议-选择”循环的有效性。增加迭代次数（max-iter 从 1 到 3）在多跳任务上带来了显著的性能提升。
抽象问答质量：在 Abstract QA 任务中，使用 LLM-as-a-judge 进行评估，ToPG 在多样性 (Diversity) 和 赋能性 (Empowerment) 指标上通常优于 GraphRAG 和 LightRAG。

1.0 技术创新——逻辑思维推理框架：ToPG 的核心贡献在于解决了“如何在图中聪明地走”的问题。不同于 PropRAG 或 HLG 可能侧重于路径搜索或聚类，ToPG 的 Query-Aware PPR 是一种软性的、概率性的导航方式，它让“相关性”像重力一样吸引游走路径，而不是死板的硬匹配。
2.1 技术目标——专业手册公众服务：ToPG 是一种新的、结合了之前 PropRAG 和 GraphRAG 两个方法的框架。作为一种 RAG 框架，PG 是一种中间结构，其索引成本通常远低于被看作可靠知识的图谱构建成本；加之 GraphRAG 的聚类式搜索被证明是效果极好的，所以它会是一个很不错的 LLM RAG 基座；
3.1 场景功能——食养通：ToPG 可以被用于补全食养通缺失的部分，用于在知识图谱等可靠知识不够的情况下作为一个补充选项。然而 ToPG 过高的复杂度可能导致其难以维护。