2410论文研读-Boosting Camouflaged Object with Dual-Task Interactive Transformer

作者:Zhengyi Liu,Zhili Zhang,Yacheng Tan,Wei Wu

论文来源:International Conference on Pattern Recognition (ICPR)

发表日期:2022

背景

伪装目标检测的目标是发现隐藏在周围环境中的伪装物体。现有的方法遵循仿生框架,即首先对物体进行定位,然后细化物体的边界。作者认为,伪装物体的发现取决于对物体和边界的反复搜索。反复的搜索是具有全局搜索能力的Transformer所擅长的。为此,作者提出了一种双任务交互的Transformer来检测伪装目标的位置及其准确的边界。

创新点

作者提出了一种双任务交互的Transformer架构,以促进边界检测和COD任务之间的交互。与先前的仿生框架不同,作者设计的网络模型是通过交叉多头注意力机制并行搜索物体和其边界,试图超越人类的智能,而不是模仿人类的视觉。

方法

COD任务

伪装对象检测(COD)的目标是对隐藏在环境中的伪装物体进行分割。关键的挑战在于,伪装的物体在颜色、纹理、亮度或其他图案上与周围环境相似。然而,伪装对象虽然可以隐藏在背景中,但它不可避免地有其边界。因此,边界检测对COD任务至关重要。

基于上述的分析,作者提出了提出了一种双任务交互式Transformer来并行检测伪装物体和边界。

模型架构

作者首先通过两个并行的Transformer架构分别用来提取图片的前景特征与背景特征。从图中可以得到,特征提取的Transformer架构由4个Transformer Block组成(Transformer Block由Segformer组成),来提取不同尺度的前景特征。作者认为物体的边界特征可由前景特征减去背景特征得到,因此通过特征提取架构得到了4个不同尺度的前景特征与边界特征。

将得到的不同尺度的前景/边界特征通过FEA进行融合,再输入的双任务交互的Transformer架构中,输出最终的分割结果与物体边界预测结果。

FEA

将特征提取模块输出的4个不同尺度的前景/边界特征输入到对应FEA中进行融合,从而得到了包含各个尺度信息的前景/边界特征。

Dual-Task Interactive Transformer

双任务交互的Transformer架构由2个Transformer架构组成,分别用于前景预测任务和边界预测任务。从图中可以看出,前景特征充当对应前景预测Transformer的query,而key和value则来自前景特征与边界特征的拼接特征。同样的,边界特征充当对应边界预测Transformer的query,而key和value则来自边界特征与前景特征的拼接特征。从而实现了,在进行前景预测任务时,边界的特征提供伪装对象的轮廓细节,在进行边界预测任务时,前景特征对位置线索的边界细化提供指导,从而实现了并行搜索物体和其边界。

实验

Dataset

在CAMO,COD10K,NC4K 等数据集上进行了广泛的实验。

评估指标

作者采用5个常用的评价指标来评价提出的COD模型的性能,包括precision-recall (PR)曲线、S-measure (Sα)、mean E-measure (Eφ)、weighted F-measure (Fωβ)和平均绝对误差(MAE)。

实验结果

通过表一,可以得到作者的方法在所有4个评估指标方面优于最先进的模型。此外,作者提出的COD模型的PR曲线在3个数据集上均高于其他模型,验证了所提出模型的有效性。

总结

作者提出了一种利用交叉多头自注意机制并行检测伪装目标和边界的方法。它充分利用了计算机的快速并行计算能力,超越了现有的仅模拟人类视觉系统的COD模型。这种双任务的交互,被验证是有效的,可将这种交互方式应用到别的任务上。此外,还可以对文中的特征提取模块进行调整,比如避免提取背景特征,将其替换成一种更高效的边界提取方式。