202510 论文研读-Wild Visual Navigation:Fast Traversability Learning via Pre-Trained Models and Online Self-Supervision

作者:Matias Mattamala, Jonas Frey 等
单位:牛津大学、苏黎世联邦理工学院、马普智能系统研究所
来源:arXiv Artificial Intelligence
时间:2024.04

一、研究背景

该研究聚焦于野外视觉导航(Wild Visual Navigation, WVN),即在自然环境(森林、草地、灌丛等)中,机器人仅依赖视觉感知实现自主行走。传统方法主要依靠几何特征(如地形高差、坡度)**评估可通行性(traversability),但在野外场景中,诸如高草、枝叶、灌木等柔性障碍常被误判为刚性物体,从而阻碍机器人前进。

以往基于深度学习的导航模型通常需要大量标注数据,并在训练后静态部署,缺乏在线自适应能力,难以应对不同地貌和照明条件的变化。

为解决这一问题,作者提出 Wild Visual Navigation (WVN) 系统:

  • 利用预训练的自监督视觉模型(如 DINO-ViT、STEGO),提取高维视觉语义特征;
  • 在机器人运行过程中,基于自身运动反馈生成监督信号,实现在线自监督学习与即时推理
  • 使机器人在数分钟的示范学习后,即能在全新自然环境中实现稳定自主导航。

二、核心内容

论文提出了一个在线自监督可通行性估计框架 WVN,其核心思想包括:

  1. 高维特征语义迁移:利用大规模自监督模型(DINO-ViT、STEGO)提取视觉特征,无需人工标注即可编码语义相似性;
  2. 在线自监督机制:机器人根据自身速度反馈计算可通行性得分(traversability score),作为训练标签;
  3. 双线程架构
    • 一条线程执行特征提取与推理
    • 另一条线程执行监督生成与在线学习
      二者并行工作,实现实时更新与预测;
  4. 多相机感知与任务图机制:通过监督图(Supervision Graph)与任务图(Mission Graph)管理短期与全局经验,保证时空一致性;
  5. 异常检测与置信度调控:采用重建误差(autoencoder)度量特征置信度,从而提升未知区域的安全性与学习效率。

三、核心框架与系统模块

1. 系统概览

WVN 的输入为 RGB 图像、里程计与机器人自身状态(速度、加速度),输出为每个像素的可通行性概率图。系统由两大并行流程组成:

  • 特征提取与推理模块:负责从图像中提取特征并生成通行性预测;
  • 在线学习模块:从机器人运动反馈中生成监督信号并更新模型参数。

2. 特征提取与推理(Feature Extraction & Inference)

  • 多相机调度:通过加权轮询算法动态选择输入图像;
  • 特征提取:使用自监督预训练网络(DINO-ViT 提供 384 维特征,STEGO 提供 90 维特征与弱分割掩膜);
  • 特征子采样:通过 SLIC、STEGO、随机采样三种策略将 224×224 像素降维为约 100 个特征嵌入;
  • 推理方式:既支持分段预测(segment-wise)也支持像素级预测(pixel-wise),后者提供更精细的导航精度。

3. 在线学习(Online Learning)

  • 可通行性得分生成:通过机器人指令速度与实际速度差计算“牵引误差”,经 Sigmoid 函数映射为连续可通行性值 τ∈[0,1];
  • 监督图与任务图
    • 监督图(Supervision Graph):短时缓存机器人轨迹与通行性得分;
    • 任务图(Mission Graph):记录长期特征、图像与监督数据,用于在线训练;
  • 监督生成:通过视角重投影,将机器人行走轨迹重新映射到历史图像以生成训练标签。

4. 异常检测与置信学习

  • 重建网络(fᵣₑcₒ):仅重建已通过区域特征,未通过区域将呈现高重建误差,形成异常检测机制;
  • 置信度估计(Confidence Estimation):根据重建误差分布计算置信值 c∈[0,1];
  • 加权损失函数:采用置信度加权的 MSE 损失,降低未标注区域的负面影响,实现安全学习。

四、实验与结果

1. 实验设置

平台:ANYmal C / D 四足机器人(配备 NVIDIA Jetson Orin AGX)。
环境:英国牛津大学公园、Wytham 森林、德国图宾根研究所等自然场景。
对比基线:

  • 传统几何方法(基于地形高度与坡度);
  • 学习型几何方法(基于地形映射系统);
  • WVN(视觉自监督)。

2. 实验结果

  • 快速适应性:仅需 <5 分钟人工示范,即可在全新环境中实现正确的通行性分割;
  • 可视 vs 几何比较:在高草或柔性障碍场景中,WVN 能区分“可穿越的柔性障碍”与“不可穿越的刚体”,明显优于几何方法;
  • 自主导航任务:在树林场景中,WVN 经过 2 分钟学习后即可实现 8/8 成功的自主点到点导航;
  • 公里级连续导航:在公园路径中,机器人成功完成最长 1.4 km 的自主路径跟随,仅需轻微人工干预;
  • 多相机部署:实现从室内到室外的自适应过渡,准确识别玻璃门、草地、道路等多类型地面。

3. 离线分析

  • 像素级预测优于分段预测,可提供更细粒度的可通行性估计;
  • STEGO 特征子采样策略在训练收敛速度与预测稳定性上表现最佳;
  • 实验表明语义特征迁移极大地加速了在线学习的适应过程。

五、总结与展望

主要贡献

  1. 提出WVN 框架,实现了野外环境下基于视觉输入的在线自监督可通行性估计
  2. 引入预训练自监督模型的语义特征迁移,显著减少标注依赖;
  3. 构建双线程学习架构任务图机制,实现同时训练与推理;
  4. 实现快速现场学习(<5min)与真实环境自适应导航
  5. 代码与模型开源,支持 ROS 集成与多相机扩展。

局限性

  • 使用牵引误差作为通行性度量存在噪声与不确定性;
  • 长期运行的漂移与动态环境变化仍影响性能;
  • 对于极端复杂地形(如泥泞、雪地)的泛化能力仍需验证。

未来方向

  • 引入多模态感知融合(如触觉、音频、红外);
  • 改进自监督信号的鲁棒性与语义一致性;
  • 构建长期在线学习机制,支持跨环境记忆迁移与持续适应。