作者:Pingping Zhang, Tianyu Yan, Yang Liu ,Huchuan Lu
论文来源:CVPR
发表日期:2024
背景
海洋动物分割(MAS)涉及对海洋环境中的动物进行分割,是水下智能的重要支柱。然而,由于水下图像中存在的光照变化、水的浑浊、颜色失真等情况,因此传统的图像分割技术并不适合水下图像分割的应用场景。SAM(Segment Anything Model)为一般的分割任务提供了一个通用的框架。不幸的是,使用自然图像进行训练的SAM不能从海洋图像中获得先验知识,并且SAM的单位置提示对于先验指导并不充分。为此,作者提出了一种新的特征学习框架,称为Dual-SAM,用于高性能MAS。
创新点
作者提出了一种新颖的特征学习框架,称为Dual-SAM,用来提高海洋动物分割的性能。其主要创新点包括:
双结构设计:通过引入Segment Anything Model (SAM) 的双结构,增强海洋图像的特征学习。
多级耦合提示(MCP)策略:用于提供全面的水下先验信息,提升SAM编码器的多级特征。
扩张融合注意力模块(DFAM):逐步整合SAM编码器的多级特征,以改善对海洋动物的定位感知。
交叉连接预测(C3P):捕捉离散像素之间的互联性,提供更结构化的分割结果。
方法
模型框架

从图上可以看出,作者提出的(Dual-SAM)框架由4个组件构成:双SAM编码器(DSE)、多级耦合提示(MCP)、扩展融合注意模块(DFAM)、交叉连接预测(C3P)。
Dual-SAM Encoder(DSE)

如图所示,作者首先对图像进行gamma校正来改善水下图像的光照条件。Dual-SAM编码器采用双分支结构,分别处理原始图像和伽马校正图像。在编码器中采取了多头注意力机制,以此来更好地捕捉上下文信息。此外,作者采用了多级特征提取的策略,利用适配器(Adapters)增强SAM编码器的多级特征。适配器通过低秩可训练矩阵注入海洋领域的信息,从而提高特征的表达能力。上述过程,可通下列表达式给出:

Multi-level Coupled Prompt(MCP)

如图所示,MCP模块有3个输入,分别是原始图像与gamma校正图像拼接后的特征嵌入向量(Iωi-1),经过SAM_Encoder的原始图像提取的特征(Xαj)以及gamma 图像提取的特征(Xβj),MCP的工作流程如下所示:



MCP的输出Pαj和Pβj是耦合的,可以提供更丰富的先验信息。提示特征可由下式得出:

其中gα i和gβ i是可学习的权重,用于平衡输入特征和提示。
Dilated Fusion Attention Module(DFAM)

在这一模块里,作者引入特征金字塔结构作为解码器,为了改善感受野,使用扩张卷积和通道注意力来融合提示特征,增强上下文感知能力。DFAM可以表示为:

Criss-Cross Connectivity Prediction(C3P)
传统的图像分割方法通常逐像素预测类别,这种方式容易忽略像素之间的连接性,导致生成的分割掩码存在不规则的边界。C3P通过预测像素间的连接关系来捕获这种连接性,从而改进分割结果。
如图所示,为了捕捉像素间的连接性,C3P将单通道的掩码标签转化为8个通道的连接标签。每个通道表示某个特定方向上与中心像素的连接关系(左、右、上、下以及对角线方向),从而详细描述每个像素与周围像素的连接性。

首先作者定义了两个距离的邻域集合 Ωw,h1 和 Ωw,h2,分别包含距离中心像素 (w,h)(w,h)(w,h) 为1和2的邻域像素。使其在更大范围内对像素间连接进行建模。

C3P通过二值交叉熵损失计算每个通道的连接性预测结果与真实标签的差异,鼓励模型在所有方向上学习准确的连接关系。

Loss Function
伪标签相互监督(PMS)
为了进一步保证双支路的全面互补性,作者对两个解码器采用了伪标签相互监督(PMS)。使模型能够从不同的角度优化其参数。

首先通过给两个译码器的预测连接图设置阈值,以此来生成为标签。


使用上述生成的伪标签来监督另一个分支的预测。通过相互监督,可以促进两个分支之间的协同增强,优化提示特征的提取和整合。

引入了一个动态更新系数μ用于伪标签监督。t是训练期间当前的epoch数。T是total_epochs。

最终的损失函数如上所示。
实验
Dataset
在MAS3K,RMAS,UFO120,RUWI,USOD10K 等数据集上进行了广泛的实验。
评估指标
作者采用5个常用的评价指标来评价提出的COD模型的性能,包括平均交并比(mIoU)、S-measure (Sα)、mean E-measure (Eφ)、weighted F-measure (Fωβ)和平均绝对误差(MAE)。
实验结果


从上图可知,作者提出的方法在五个广泛使用的MAS数据集上达到了最先进的性能。
总结
作者提出了一种新的MAS特征学习框架- Dual-SAM。该框架结合伽马校正、多级特征提取、自注意力机制和双分支结构,显著提升了海洋动物分割的性能。其中作者提出了通过预测像素之间的连接关系来改善分割结果以及通过伪标签监督的方法可以迁移到别的分割任务,以此来改善模型的分割效果。