作者:Xiaotong Luo , Zekun Ai , Qiuyuan Liang , Yuan Xie , Zhongchao Shi ,
Jianping Fan , and Yanyun Qu
论文来源: IEEE Transactions on Instrumentation and Measurement
发表日期:204年8月6日
背景
视觉测量设备的成像系统通常会受到环境因素的影响,如失真、模糊、噪声等,导致采集到的图像质量下降。
超分辨率技术(Super-Resolution,SR),可以从低分辨率(LR)的输入图像生成高分辨率(HR)图像,从而恢复或增强图像中缺失的细节和纹理,使得图像的视觉质量更加清晰和细腻。现有的工作主要是设计轻量级的网络架构来实现高效的推理,而忽略了图像的内在内容,导致计算资源浪费在不必要的区域上。
创新点
作者提出了利用边缘感知的高效的Transformer架构(EdgeFormer)来进行精确的图像SR任务,该模型对信息边缘和纹理区域进行了Self-Attention(SA),显著地降低计算复杂度。EdgeFormer可以与现有的基于卷积神经网络(CNN)的SR主干相结合,充分整合全局和局部上下文信息。大量的实验结果表明,与其他模型相比,EdgeFormer以更少的浮点运算(FLOPs)实现了明显的性能提升。
方法
作者提出的EdgeFormer由Sparse Edge-Aware Pixel Selector(SEPS)和Multiscale Efficient Transformer Module(METM)组成。
SEPS(Sparse Edge-Aware Pixel Selector)
该模块通过生成二值掩码M,从输入特征映射中筛选出边缘和纹理区域。该模块采用采用可学习的Sobel卷积自适应地提取每个样本的边缘信息。并受到稀疏误差驱动损失的约束。
Learnable Sobel Conv
可学习的Sobel卷积层旨在提供边缘和纹理像素(信息像素)的指导。对Sobel算子引入了一个可学习的参数θ。可学习的Sobel 卷积如下所示:

SEPS

给定一个输入特征fin∈R H×W×C,其中H、W、C分别表示高度、宽度和通道尺寸将其输入到SEPS中,得到概率p∈R H×W×2 ,这个过程可以下面的公式表示:
P = SEPS( fin) ∈ RH×W×K , K=2
Pi,j,0表示空间位置(i, j)上的像素信息量较小的概率,即光滑像素;Pi,j,1表示信息量较大的概率,即边缘或纹理像素。比较两个概率图,得到一个二进制掩码M∈{0,1}H×W,它可以指示是否选择了一个特征像素Mi j 。这个过程可以下面的公式表示:
Mi j = argmax Pi,j,k
k∈[0,1]
M是一个离散变量,这使得M不可微,阻碍了端到端训练。为了解决这一问题,作者应用了Gumbel-Softmax技巧来代替Softmax。
M = G(p) ∈ {0, 1}H×W
Sparse Error-Driven Loss
由于使用Sobel卷积来选择边缘和纹理区域是一个粗糙的过程,可能会留下一些不重要的光滑区域,特别是梯度变化缓慢的区域。为此,作者引入了稀疏误差驱动损失,以更精细的方式约束边缘和纹理像素的数量。稀疏误差驱动损失如下所示:


α是用于控制M的稀疏度的正则化系数。
Multiscale Efficient Transformer Module
METM的设计目的是捕获SEPS选择的像素之间的全局远程依赖关系。METM的结构如下所示:

输入特征首先通过并行多尺度卷积捕获分层特征,再将其聚合,聚合的特征包含了来自不同尺度的信息。将得到的聚合特征与SEPS所得的mask进行点乘,从而得到筛选后的边缘特征,此外引入位置编码来引入位置信息。对整合后的信息转入到L个transformer块中,得到特征Fl mid。将其得到的特征传入到全连接层,使其恢复到原始通道大小(C)将其重塑为二维特征大小。Fl mid的值被填充到原来的二维空间位置,而滤波后的像素直接被填充到输入特征对应位置的值。
CSSW Strategy
由于每个样本通过SEPS所保留的像素的数量不同,意味着传输到transformer block中的tokens数量也不同。为了解决这个问题,作者提出了CSSW Strategy。

作者将一个mini-batch中的所有selective tokens展平,然后将它们划分为S大小的窗口。具体流程:作者记录一个mini-batch中的每个样本所保留的像素的个数,记为{M1, M2, , . . . , MB}。然后通过下式计算划分窗口的大小S:
S= Min{R((M1+M2+. . . +MB)/B), 512}
在每个窗口里进行自注意力机制。为了更有效的聚合信息,作者进行了shift windows操作,以(S/2)的距离移动局部窗口,通过在变换块中交替使用标准窗口和移位窗口,使边缘纹理token放置在窗口的中心。
Model Architecture
EdgeFormer

作者将EdgeFormer作为基本块嵌入到现有的基于卷积神经网络(CNN)的SR主干中进行SR任务中。
EDSR

实验
Datasets
作者采用 DIV2K 作为训练集。并在Set5、Set14、B100和Urban100四个公共SR基准数据集上对该方法进行了评估。
评价标准
以峰值信噪比(PSNR)和结构相似度(SSIM)作为评价指标。
实验结果

结果表明,作者提出的的EF-EDSR在较低的计算成本下带来了较显著的性能提升。
总结
作者提出了一种有效利用边缘和文本区域的边缘感知高效变压器(EdgeFormer),使模型聚焦于用的信息,在减少计算量的同时提高了SR的视觉效果。实验证明EdgeFormer中的Sparse Edge-Aware Pixel Selector(SEPS)能够有效地对重要像素进行指导。SEPS采用的有效信息的提取方式可以进一步的思考,来应用到伪装物分割任务中。