论文来源:IEEE Transactions on Pattern Analysis and Machine Intelligence
发表日期:2024年8月
作者: Bowen Yin,Xuying Zhang,Deng-Ping Fan,Shaohui Jiao,Ming-Ming Cheng,Qibin Hou,Luc Van Gool
研究现状
由于伪装目标检测任务中的目标与背景非常相似,使得目标与背景之间的边界非常模糊。受到Transformer中的多头注意力机制的启发,作者提出一种用于伪装目标检测的掩码可分离注意(MSA)构成的伪装检测模型:CamoFormer,该模型有效的整合图像中前景、背景信息,有效提高了模型的分割精度。
创新点
作者提出的CamoFormer具有两个创新的设计。
- MSA:MSA使用不同的自注意头来计算不同区域的视觉相似性,显式地建模前景和背景之间的全局依赖性。
- CamoFormer:作者以PVTv2为Encoder,以MSA为基础构件,构造了模型的decoder,有效整合了前景,背景以及编码器所获得的语义信息,提高了模型的分割精度。
研究内容
作者提出的CamoFormer由PVTv2和MSA组成。模型架构如下所示:

MSA

从图中可以看到,MSA的输入分别来自编码器的多尺度语义信息, 上一个MSA的输出以及对应的预测掩码。MSA利用多头注意力机制,将其分为3组。其中两组头来独立计算前景和背景区域的像素相关性,一组用于计算全图像素相关性,从全局视图中区分伪装对象。将3组头的输出进行融合,作为MSA的输出。
实验
Dataset
在实验中,作者采用来自CAMO数据集的1000幅图像和来自COD10K的3040幅图像进行训练,在三个通用的COD基准数据集CAMO,COD10K,NC4k 上评估作者的模型。
评指估标
作者以Structure-measure(Sα),Mean Enhanced-measure(Eφ),Weighted F-measure(Fβw), adaptive E-measure(αE), Mean Absolute Error(MAE)作为最终的分割效果评价指标。
定性评估


方法分析

为了验证提出的MSA有效性,作者对所提出的方法进行了消融实验,当baseline应用MSA时,在通用基准数据集上的表现得到了提升。

作者为了验证MSA分头关注不同区域对分割性能提升的有效性,作者进行了消融实验。可以看到,虽然每种类型的注意力成分(F-TA, B-TA, TA)都能够提高性能。但将F-TA或B-TA与TA结合使用可以进一步改善结果。
可视化

结论
针对伪装分割任务,作者提出了CamoFormer,以PVTv2为encoder,以MSA 为基础块构建decoder,其中MSA模块能够关注前景,背景,以及全局信息,能够有效的提高模型的分割性能。
启发
- 实验证明CamoFormer中的MSA模块能够有效地整合图像中不同区域的信息。MSA的分组关注模式可以借鉴。
- 作者的CamoFormer架构采用Encoder-Decoder架构,先前在模型构造时忽视了Decoder的作用,这对后面模型调整提供了启发。