202601 论文研读-Hawkeye:Efficient Reasoning with Model Collaboration

来源：COLM 2025

单位：MBZUAI、UCLA、斯坦福大学

作者：Jianshu She, Zhuohao Li, Zhemin Huang, Qi Li, Peiran X,
Haonan Li, Qirong Ho

一、背景

思维链 ( CoT )推理技术被证明能大幅增强LLM的复杂任务解题能力，尤其在数学推理、代码生成等领域。然而，这类推理的效率问题极为突出：

推理token数量庞大：CoT生成了大量中间思维token，其中多数是语义冗余或低密度信息。
计算成本高昂：推理token数直接决定计算与存储成本。
部署延迟显著：例如OpenAI o1模型平均使用4万token，而GPT-4o平均仅4千。

因此，核心问题是：

如何在不牺牲推理质量的前提下，减少推理过程中无用的CoT冗余token？

二、贡献

提出了一种全新的推理范式 HAWKEYE，通过模型协作（model collaboration）实现高效推理。在该框架中，大模型负责生成简洁的推理指令，小模型在此基础上将其扩展为完整的自然语言响应。HAWKEYE 在保持响应质量的同时，显著降低了计算成本与经济成本。
首次对 CoT 冗余性进行了系统性研究，表明过量的推理 token 是在多种任务中普遍存在的现象。分析结果显示，通过一种有原则的压缩策略，可以移除相当大比例的推理 token，而不会对输出质量造成明显损害。
构建了一个高质量的 CoT 数据集，并利用强化学习对推理模型进行微调，以优化 CoT 的生成过程。该方法在基本保持模型性能的前提下，使 CoT 长度相较于原始大模型缩短超过 75%，且在评测数据集上的准确率仅下降约 4%。

三、方法

HAWKEYE 的整体设计同时覆盖后训练阶段（post-training）与推理阶段（inference），其核心思想是“高密度推理 + 模型协作解码”。

CoT 冗余分析与逻辑承载token

作者首先通过实验验证了 CoT 推理中存在大量冗余，并提出“逻辑承载 token”的概念，用以指代那些真正包含关键逻辑或数学推理信息的 token。实验表明，只保留这些 token 即可维持推理性能。

2. 强化学习驱动的 CoT 后训练（Post-training）

在后训练阶段，HAWKEYE 使用 GRPO 强化学习方法对一个 7B 模型进行微调，使其生成：

更短的 CoT；
更连贯、可解释的推理指令；
更有利于下游小模型理解与执行的推理结构。

奖励函数同时考虑：

小模型最终答案的精确匹配（Exact Match）；
CoT 长度相对于原始 CoT 的惩罚项。

通过引入“大模型生成 CoT，小模型负责答题”的奖励计算机制，有效避免了大模型通过跳过推理来“投机取巧”的问题。

3. 协同推理与双模型解码（Inference）

在推理阶段，HAWKEYE 采用两阶段解码流程：

大模型阶段：生成压缩且高密度的 CoT 作为推理指令；
小模型阶段：基于该 CoT 展开生成最终自然语言回答。

这种协同推理方式不仅降低了推理开销，还使系统在部署时具备更高的灵活性，例如可选择安全对齐或高效解码导向的小模型。

四、实验

响应质量评估

在 GSM8K、MATH、MATH500 等数据集上，HAWKEYE 的准确率相较基线模型仅下降 3%–6%。同时，通过 LLM-as-Judge（GPT-4o、Grok-3、Claude-3.5）在连贯性、清晰度、简洁性等维度进行评估，HAWKEYE 在多项指标上反而优于原始模型，显示出更好的用户可读性。

2. 推理延迟与吞吐量

在不同并发设置（10 / 100）下，HAWKEYE 相较基线模型实现了 1.6×–3.4× 的端到端推理加速，同时 token 使用量显著下降，验证了其在高并发场景下的实际部署价值。

3. 成本节省分析

基于真实 API 定价模型的估算结果显示，由于输出 token 数大幅减少，HAWKEYE 在推理成本上相较 OpenAI o1 和 DeepSeek-R1 分别最高可节省 98% 与 59%，突出了该方法在工业级应用中的经济优势。

五、结论

本文提出的 HAWKEYE 框架表明，高质量推理并不依赖冗长的 CoT。通过系统性识别并压缩推理冗余，并引入模型协作机制，可以在显著降低成本与延迟的同时，维持甚至提升推理质量。

HAWKEYE 为推理模型的发展提供了一个重要启示：未来的可扩展推理系统，可能不再依赖“单一大模型长思考”，而是走向“大模型规划、小模型执行”的协同范式。这一思路对推理模型的训练、部署以及实际应用均具有较强的参考价值。