202510 论文研读-Wild Visual Navigation:Fast Traversability Learning via Pre-Trained Models and Online Self-Supervision

作者：Matias Mattamala, Jonas Frey 等
单位：牛津大学、苏黎世联邦理工学院、马普智能系统研究所
来源：arXiv Artificial Intelligence
时间：2024.04

一、研究背景

该研究聚焦于野外视觉导航（Wild Visual Navigation, WVN），即在自然环境（森林、草地、灌丛等）中，机器人仅依赖视觉感知实现自主行走。传统方法主要依靠几何特征（如地形高差、坡度）**评估可通行性（traversability），但在野外场景中，诸如高草、枝叶、灌木等柔性障碍常被误判为刚性物体，从而阻碍机器人前进。

以往基于深度学习的导航模型通常需要大量标注数据，并在训练后静态部署，缺乏在线自适应能力，难以应对不同地貌和照明条件的变化。

为解决这一问题，作者提出 Wild Visual Navigation (WVN) 系统：

利用预训练的自监督视觉模型（如 DINO-ViT、STEGO），提取高维视觉语义特征；
在机器人运行过程中，基于自身运动反馈生成监督信号，实现在线自监督学习与即时推理；
使机器人在数分钟的示范学习后，即能在全新自然环境中实现稳定自主导航。

二、核心内容

论文提出了一个在线自监督可通行性估计框架 WVN，其核心思想包括：

高维特征语义迁移：利用大规模自监督模型（DINO-ViT、STEGO）提取视觉特征，无需人工标注即可编码语义相似性；
在线自监督机制：机器人根据自身速度反馈计算可通行性得分（traversability score），作为训练标签；
双线程架构：
- 一条线程执行特征提取与推理；
- 另一条线程执行监督生成与在线学习；
  二者并行工作，实现实时更新与预测；
多相机感知与任务图机制：通过监督图（Supervision Graph）与任务图（Mission Graph）管理短期与全局经验，保证时空一致性；
异常检测与置信度调控：采用重建误差（autoencoder）度量特征置信度，从而提升未知区域的安全性与学习效率。

三、核心框架与系统模块

1. 系统概览

WVN 的输入为 RGB 图像、里程计与机器人自身状态（速度、加速度），输出为每个像素的可通行性概率图。系统由两大并行流程组成：

特征提取与推理模块：负责从图像中提取特征并生成通行性预测；
在线学习模块：从机器人运动反馈中生成监督信号并更新模型参数。

2. 特征提取与推理（Feature Extraction & Inference）

多相机调度：通过加权轮询算法动态选择输入图像；
特征提取：使用自监督预训练网络（DINO-ViT 提供 384 维特征，STEGO 提供 90 维特征与弱分割掩膜）；
特征子采样：通过 SLIC、STEGO、随机采样三种策略将 224×224 像素降维为约 100 个特征嵌入；
推理方式：既支持分段预测（segment-wise）也支持像素级预测（pixel-wise），后者提供更精细的导航精度。

3. 在线学习（Online Learning）

可通行性得分生成：通过机器人指令速度与实际速度差计算“牵引误差”，经 Sigmoid 函数映射为连续可通行性值 τ∈[0,1]；
监督图与任务图：
- 监督图（Supervision Graph）：短时缓存机器人轨迹与通行性得分；
- 任务图（Mission Graph）：记录长期特征、图像与监督数据，用于在线训练；
监督生成：通过视角重投影，将机器人行走轨迹重新映射到历史图像以生成训练标签。

4. 异常检测与置信学习

重建网络（fᵣₑcₒ）：仅重建已通过区域特征，未通过区域将呈现高重建误差，形成异常检测机制；
置信度估计（Confidence Estimation）：根据重建误差分布计算置信值 c∈[0,1]；
加权损失函数：采用置信度加权的 MSE 损失，降低未标注区域的负面影响，实现安全学习。

四、实验与结果

1. 实验设置

平台：ANYmal C / D 四足机器人（配备 NVIDIA Jetson Orin AGX）。
环境：英国牛津大学公园、Wytham 森林、德国图宾根研究所等自然场景。
对比基线：

传统几何方法（基于地形高度与坡度）；
学习型几何方法（基于地形映射系统）；
WVN（视觉自监督）。

2. 实验结果

快速适应性：仅需 <5 分钟人工示范，即可在全新环境中实现正确的通行性分割；
可视 vs 几何比较：在高草或柔性障碍场景中，WVN 能区分“可穿越的柔性障碍”与“不可穿越的刚体”，明显优于几何方法；
自主导航任务：在树林场景中，WVN 经过 2 分钟学习后即可实现 8/8 成功的自主点到点导航；
公里级连续导航：在公园路径中，机器人成功完成最长 1.4 km 的自主路径跟随，仅需轻微人工干预；
多相机部署：实现从室内到室外的自适应过渡，准确识别玻璃门、草地、道路等多类型地面。

3. 离线分析

像素级预测优于分段预测，可提供更细粒度的可通行性估计；
STEGO 特征子采样策略在训练收敛速度与预测稳定性上表现最佳；
实验表明语义特征迁移极大地加速了在线学习的适应过程。

五、总结与展望

主要贡献

提出WVN 框架，实现了野外环境下基于视觉输入的在线自监督可通行性估计；
引入预训练自监督模型的语义特征迁移，显著减少标注依赖；
构建双线程学习架构与任务图机制，实现同时训练与推理；
实现快速现场学习（<5min）与真实环境自适应导航；
代码与模型开源，支持 ROS 集成与多相机扩展。

局限性

使用牵引误差作为通行性度量存在噪声与不确定性；
长期运行的漂移与动态环境变化仍影响性能；
对于极端复杂地形（如泥泞、雪地）的泛化能力仍需验证。

未来方向

引入多模态感知融合（如触觉、音频、红外）；
改进自监督信号的鲁棒性与语义一致性；
构建长期在线学习机制，支持跨环境记忆迁移与持续适应。