Feature-Space Optimization-Inspired and Self-Attention Enhanced Neural Network Reconstruction Algorithm for Image Compressive Sensing

CHEN Wen-jun, YANG Chun-ling

ACTA ELECTRONICA SINICA ›› 2022, Vol. 50 ›› Issue (11) : 2629-2637.

PDF(2714 KB)
CIE Homepage  |  Join CIE  |  Login CIE  |  中文 
PDF(2714 KB)
ACTA ELECTRONICA SINICA ›› 2022, Vol. 50 ›› Issue (11) : 2629-2637. DOI: 10.12263/DZXB.20220155
PAPERS

Feature-Space Optimization-Inspired and Self-Attention Enhanced Neural Network Reconstruction Algorithm for Image Compressive Sensing

Author information +

HeighLight

The existing optimization-inspired networks for image compressive sensing(ICS) implement information optimization and flow in the pixel domain following the traditional algorithms, which does not make full use of the information in the image feature maps extracted by the convolutional neural network. This paper proposes the idea of constructing information flow in the feature domain. A feature-space optimization-inspired network(FSOINet) is designed to implement this idea. Considering the small receptive field of the convolution operation, this paper introduces the self-attention module into FSOINet to efficiently utilize the non-local self-similarity of images to further improve the reconstruction quality, which is named FSOINet+. In addition, this paper proposes a training strategy that applies transfer learning to the ICS reconstruction network training for different sampling rates to improve the network learning efficiency and reconstruction quality. Experimental results show that the proposed method is superior to the existing state-of-the-art ICS methods in peak signal to noise ratio(PSNR), structural similarity index measure(SSIM) and the visual effect. Compared with OPINENet+ on the Set11 dataset, FSOINet and FSOINet+ have an average PSNR improvement of 1.04dB/1.27dB respectively.

Cite this article

Download Citations
CHEN Wen-jun , YANG Chun-ling. Feature-Space Optimization-Inspired and Self-Attention Enhanced Neural Network Reconstruction Algorithm for Image Compressive Sensing[J]. ACTA ELECTONICA SINICA, 2022, 50(11): 2629-2637. https://doi.org/10.12263/DZXB.20220155

1 引言

压缩感知理论1旨在对信号进行采样的同时完成对信号的压缩,以减少信号采集时的采样端资源浪费,成为传统采样技术在采样端资源受限条件下的一个补充方案,在单像素相机2、核磁共振成像3、快照压缩成像4、视频压缩5等信息采集任务中得以成功地应用.
压缩感知理论指出,对于可稀疏表示的信号,可以以远低于奈奎斯特采样定理的采样率对其进行采样并高概率地恢复出原信号1.对于图像信号,直接对全图进行压缩感知采样会带来较大的计算负担,因此文献[6]提出了基于块的图像压缩感知算法(Block-based Compressive Sensing, BCS),其对图像分块处理,同时降低了采样端和重构端的计算压力,成为了后续图像压缩感知(Image Compressive Sensing, ICS)算法研究的基础.
传统ICS算法78基于图像先验知识人工设计参数,通过迭代优化算法求解优化问题得到重构图像,但人工设计的参数限制了重构图像的质量,且重构时间受迭代算法的高计算复杂度限制.得益于深度学习能从数据集中自适应学习图像先验知识的优点,众多有着更高的重构质量,更快的重构速度的基于神经网络的ICS算法被相继提出.Kulkarni等人9首次使用卷积神经网络完成对图像的分块重构.Shi等人10采用分块采样、全图重构的策略以抑制分块采样带来的块效应,同时将采样矩阵加入网络训练过程,设计了重构网络CSNet,随后作者对其进行了改进,先后提出了SCSNet11,CSNet+[12].然而,这些方法仅在初始重构时使用观测值,没有充分利用观测值信息,使得重构图像纹理细节较为缺失,因此文献[13]引入残差重构思想,多次利用观测值以补充重构图像的纹理细节.文献[14]对不同图像块自适应地分配不同采样率以增强重构图像的纹理细节.上述方法均将神经网络视作“黑盒子”,直接将观测值通过复杂的网络映射为图像,可解释性较差.针对该问题,文献[15]提出了ISTANet,将传统迭代优化算法展开为多层卷积神经网络,为压缩感知重构网络引入了传统优化算法中的数学先验知识,在提高重构质量的同时提高了网络的可解释性.随后,众多优化启发网络被相继提出,文献[16~18]将采样矩阵加入网络训练过程,用全图重构替代ISTANet的分块重构,深度展开不同的传统算法,提升了重构图像质量.文献[19]在优化启发网络结构上引入长短期记忆模块加强网络信息交互能力,进一步提高了重构效果.此类优化启发网络15~19使用网络单元实现近端梯度法的近端算子,在特征域完成对当前阶段图像的去噪过程,保留了近端梯度法在像素域的梯度下降操作,提升了图像压缩感知重构算法的整体效率,但其仍存在着几点不足:(1)其保留了传统算法中信息在像素域中传递的特点,即在像素域做更新操作,优化阶段之间只传递像素域图像信息,导致每个阶段网络所提取的特征信息无法被充分利用.(2)其仅将近端映射操作映射为网络结构而沿用了传统迭代方法在像素域的梯度下降操作,没有充分发挥神经网络强大的学习能力挖掘观测值所包含的信息.(3)卷积神经网络为深度学习引入了包括局部相关性、权重共享的归纳偏置.这些归纳偏置推动了卷积神经网络在计算机视觉任务上的发展,但也限制了网络模型捕捉长距离依赖关系的能力20.现有的ICS优化启发网络仅通过基本的卷积单元构成,而单纯的卷积操作无法有效地利用图像的非局部自相似性.
基于以上分析,本文将传统优化算法逐步优化图像的思想转换为逐步优化图像特征,设计了一个特征域优化启发网络(Feature-Space Optimization-Inspired Network, FSOINet),在特征域实现信息更新.每个网络单元都对应着一次优化操作,各单元之间传递的是网络提取的特征图而非像素域图像.网络构建了特征域的信息流动通道,使得网络在引入优化迭代思想的同时更充分地发挥卷积神经网络学习得到的特征处理能力.在FSOINet基础上,我们还引入自注意力操作捕捉特征向量间的非局部自相关性以增强图像特征,我们将其命名为FSOINet+.

2 特征域优化及自注意力增强图像压缩感知重构网络

迭代优化算法通过将图像重构问题转化为优化问题以求解原图像.即给定一个原始信号xN×1,压缩感知通过观测矩阵ΦM×N,其中M远小于N,对信号线性采样得到观测值yM×1.而病态的重构问题可以转化为优化问题:
minx12Φx-y22+λψx
(1)
其中ψ(x)为正则项,由信号先验知识得到,λ为正则化参数.传统压缩感知算法一般基于近端梯度下降法对该优化问题进行迭代求解,每次迭代均由梯度下降操作和近端投影组成:
r(k)=x(k-1)-ρΦT(Φx(k-1)-y)
(2)
x(k)=proxλ,ψ(r(k))=argminx12x-r22+λψ(x)
(3)
其中k表示迭代次数,ρ表示更新步长,T表示矩阵的转置.
受近端梯度下降法启发,本文构建的压缩感知重构神经网络整体结构如图1a)所示,不同颜色示出了所包含的三个子网络:采样子网络,初始重构子网络和特征域深度重构子网络.采样子网络对应着采样操作,在采样的同时实现了数据的压缩.初始重构子网络通过对观测值的线性变换得到图像的初始估计,随后特征域深度重构子网络通过逐步优化图像特征图最终完成图像的非线性重构.在每个优化阶段中,我们构建了一个特征域信息补充模块(Feature-Space Information supplementing Module, FSIM)利用观测值优化所提取的特征图,补充纹理细节信息.同时构建了一个双尺度去噪模块(Dual scale Denoising Module, DDM)在两个不同的尺度上对特征图进行去噪处理.为了更高效地利用图像非局部自相似性,我们进一步引入窗口自注意力增强模块(Window Self-attention Enhancement Module, WSEM)通过自注意力操作捕捉特征向量间的非局部自相关性以增强图像特征.此外,本文还提出把迁移学习策略应用于不同采样率图像压缩感知重构网络训练中,提高网络学习效率与重构质量.
图1 网络整体结构框架

Full size|PPT slide

2.1 采样与初始重构子网络

在BCS算法中,一张图像XH×W先被分成大小为N×N的不重叠的图像块,每个图像块被展开为向量xN×1并通过采样矩阵完成线性采样.当采样率为r时,采样矩阵ΦM×N,其中M=r×N.与CSNet10相同,我们使用可学习的采样矩阵来完成采样,并通过不含偏置项的卷积来模拟分块线性采样的过程.我们将Φ设置为可学习的网络参数,并将其重组成M个大小为N×N,步长为N×N的卷积核WΦ,因此我们的采样子网络表示为
Y=FΦ(X)=WΦ* X
(4)
其中FΦ()表示采样子网络,*表示卷积操作.
为了从观测值Y中获得每个图像块的合理初始估计,同时不引入更多网络学习参数,我们使用采样矩阵的转置 来完成观测域到图像域的线性变换,实现初始重构.与采样网络类似,我们将ΦT重组成N个大小为1×1×M的卷积核WΦT,并辅以PixelShuffle操作以得到初始重构图,整个初始重构子网络表示为下式:
Xinit=FΦT(X)=PixelShuffle(WΦT* X)
(5)
其中FΦT()表示初始重构子网络.

2.2 FSOINet网络结构

现有的基于优化启发ICS网络均沿用了传统优化算法中对像素域图像逐步优化的思想,每个优化阶段都通过梯度下降操作在像素域补充细节信息,并通过神经网络在特征域完成去噪过程,随后将去噪后的像素域图像传递给下一阶段.这种在每个阶段之间传递像素域信息的做法,无法充分利用卷积神经网络在每个阶段所提取的特征信息,限制了卷积神经网络强大的特征处理能力.在本文中,我们提出对特征进行优化的思想,以充分利用卷积神经网络的特征表征能力,同时加强阶段间的信息交互能力.
我们构建了FSOINet来实现上述思想,其特征域优化深度重构子网络如图1a)和图1b)所示,在得到初始重构图像后,先通过大小3×3的单层卷积从初始重构图中提取特征XF(0),此时的特征图缺少大量细节信息含有较多的噪声,因此深度重构子网络通过多个网络优化阶段逐步优化所提取的特征图.本节提出了FSIM与DDM分别将近端梯度下降法中梯度下降操作与近端投影操作展开至特征域实现,每个优化阶段均对特征进行优化,表示为式(6)
RF(k)=FFSIM(XF(k-1),Y)
(6)
XF(k)=FDDM(RFk)
(7)
经过Nk个优化阶段后,我们从优化后的特征图XFNk中通过大小1×1卷积层还原出最终重构图像Xrec.

2.2.1 特征域信息补充模块

传统优化迭代算法通过梯度下降操作在重构过程中反复使用观测值,以约束重构图像符合Φx=y的降质过程,为了在引入迭代优化思想的同时发挥卷积神经网络的特征处理能力,我们提出了通过观测值在特征域而不是像素域补充信息的思想,构建了一个特征域信息补充模块通过观测值 Y 补充图像特征信息.如图2a)和图2c)所示,我们首先通过3×3卷积降低特征XF(k-1)通道数,随后使用采样子网络将图像投影至观测域并与真实的观测值 Y 作差,得到观测域的残差信息并通过初始重构子网络将其映射至图像域,最后通过3×3卷积与一个残差卷积单元(ResBlock)得到需要补充的特征域信息与XF(k-1)相加得到RF(k).在每个优化阶段都通过观测域残差信息校准特征图,从而保证网络在通过潜在的图像先验知识优化特征的同时兼顾特征在观测域的映射与观测值 Y 的一致性,通过ResBlock引入非线性提升了算法从观测值提取信息的能力.
图2 特征域信息补充模块与双尺度去噪模块实现细节

Full size|PPT slide

2.2.2 双尺度去噪模块

得益于深度学习数据驱动的特性,我们可以从训练集中学习到图像的潜在先验知识对图像进行去噪.多尺度网络可以综合多尺度的特征信息去除不同尺度的噪声以提高去噪效果,然而多尺度的结构会引入过多的参数量与计算量.同时考虑到去噪效果与计算复杂度,本文设计了一个双尺度去噪模块在两个尺度上对特征进行去噪以提升去噪性能,同时每个尺度均使用简单的模块进行去噪以降低复杂度.如图2b)和图2c)所示,DDM并行处理两个尺度的特征并通过1×1卷积加以融合以完成对特征的优化过程.考虑到复杂度,在每个DDM中我们只使用两个ResBlock分别对高分辨率特征与低分辨率特征进行处理.其中高分辨率特征分辨率与原图像一致,而低分辨率特征通过步长为2的卷积从高分辨率特征下采得到,通道数为高分辨率特征的两倍.
FSIM与DDM均包含一个大的跳跃连接,因此,两个模块均可看做是对特征的信息补充或优化操作.通过堆叠这两个模块,我们构建的特征域优化启发网络形成了特征域的信息流动通道,使得网络在引入优化迭代思想的同时更充分地发挥卷积神经网络的特征处理能力.

2.3 FSOINet+网络结构

卷积神经网络为深度学习引入了强大的归纳偏置,包括局部相关性、权重共享,推动了计算机视觉的发展.但卷积的权重共享使其响应不能自适应于输入,卷积的局部性使其无法有效捕捉长距离依赖关系.近年来,自注意力模型在计算机视觉任务中大放异彩,其依靠图像块或像素之间的相关性建模,高效地捕捉图像内部的相关性,取得了媲美卷积模型的成效.卷积操作通过不断聚合局部信息得到更深层次的特征,每个像素点所对应的特征向量均包含着其周围像素位置的信息,相似的特征向量所对应的周围信息也彼此相似,通过注意力操作聚合所有特征向量之间的信息,能有效地对图像非局部自相似性进行建模.如图1c)所示,我们在FSOINet的基础上添加了一个窗口自注意力增强模块以实现上述思想,因此优化过程可以表示为下式:
RF(k)=FFSIM(XF(k-1),Y)
(8)
XF(k)'=FDDM(RFk)
(9)
XF(k)=FWSEM(XF(k)')
(10)
我们将由式(8)~(10)堆叠而成的网络命名为FSOINet+.其中式(8)式(9)所含模块与2.2节所述一致,本节后半部分将主要阐述WSEM的具体实现方式.
全局像素级自注意力操作的时间空间复杂度随着输入图像分辨率的增长而二次增长,为了缓解该问题,我们将特征块不重叠地分成大小为Sw×Sw的窗口,独立地在每个窗口内做自注意力操作,同时为了在一定程度上加强窗口之间的联系并提高感受野,在执行自注意力操作之前,我们使用了一个7×7的逐通道卷积对特征进行预处理以聚合局部信息,同时起到交互不同窗口间信息的作用.在每个窗口内,我们将每个像素位置所对应的特征向量投影至嵌入空间计算相关性以执行自注意力操作,具体表示为式(11)
x̂i=jexiTWθTWϕxjjexiTWθTWϕxjxj
(11)
其中xi指窗口内i位置所对应的特征向量,WθWϕ为投影矩阵.整个模块的具体实现如图3所示,我们在WSEM中同样使用了跳跃连接,因此没有破坏网络在特征域的信息流动通道,同时模块头的逐通道卷积还承担着将特征映射至残差域的作用.
图3 WSEM结构

Full size|PPT slide

2.4 迁移学习策略

图像压缩感知网络12~19对于不同采样率往往需要独立训练多个模型以适应不同采样率的重构,需要大量的训练资源.考虑到不同采样率的重构任务具有高度相关性,我们将迁移学习的思想引入压缩感知网络模型的训练,在完成一个高采样率网络模型的训练后,对于低采样率网络模型,我们将深度重构子网络的所有参数从高采样率网络模型迁移至低采样率网络模型,将高采样率采样矩阵ΦM×N的前M'行作为低采样率采样矩阵ΦM'×N的初始参数,从而低采样率网络只需要使用同样的训练集微调深度重构子网络和采样矩阵的参数,以此提高了学习效率,大大节约了训练资源.同时高采样率模型学习得到的更为丰富的图像潜在先验知识能指导低采样率模型的训练,提升低采样率模型的重构性能.

2.5 损失函数

我们的网络以原始图像XH×W为输入,首先通过采样子网络得到压缩感知观测值 Y,随后通过重构子网络得到最终的重构图像Xrec.我们通过以下损失函数端到端优化我们的网络:
L=Lmse(Xrec,X)+γLorth(Φ)
(12)
其中Lmse是原始图像 X 和重构图像Xrec的均方误差(Mean Square Error, MSE),具体表示为
Lmse(Xrec,X)=1HWXrec-XF2
(13)
其中,F2表示矩阵的Frobenius范数的平方,即矩阵的所有元素的平方和.
Lorth是文献[16]提出的采样矩阵正交约束,用以约束采样矩阵行与行之间的相关性,以尽可能保证观测值之间存在更少冗余,具体表示为式(14)
Lorth(Φ)=1M2ΦΦT-IF2
(14)
其中, I 表示单位矩阵,M表示观测值的数量.在我们的实验中,式(12)的正则化参数γ被设置为0.01.

3 仿真实验结果及分析

3.1 网络训练细节与数据集

在训练中,为了得到更公平的比较结果,我们使用与文献[12]一致的训练集,其包括BSD500数据集21中训练集(200张图像)和测试集(200张图像)共400张图像.我们先将训练图像随机裁剪成96pixel×96pixel大小的子图像并使用旋转、翻转增强训练集,最终对数据增强后的图像进行灰度化处理得到89600个子图像并将其作为网络的训练图像.我们使用Adam22优化器对网络进行训练.对于0.5采样率的网络训练,前三个epoch作为warm-up23阶段,学习率从0线性增长为2×10-4,随后97个epoch将学习率余弦下降至5×10-5;对于其他低采样率的网络训练,我们使用2.4节的迁移学习策略,将学习率设为1×10-4微调40个epoch.在我们的网络模型中,采样块大小N=32,特征通道数C=16,优化阶段数Nopt=16,未特殊说明的卷积核大小均为3×3,FSOINet的batchsize为32,FSOINet+的batchsize为6.
所有实验均在搭载Intel Core i5-6500处理器和GTX2080ti GPU的PyTorch平台上完成.实验所使用的测试集为三个在图像压缩感知中广泛使用的基准数据集,包括Set119、BSDS6824和Urban10025,彩色图像均在亮度通道上评估重构结果,并采用峰值信噪比(Peak Signal to Noise Ratio, PSNR)和结构相似度(Structural Similarity Index Measure, SSIM)来评价重构结果.

3.2 与现有算法重构性能对比

我们选取了传统ICS方法中重构质量最优的GSR8与七种前沿的使用参数可学习采样矩阵的ICS方法进行了比较,包括CSNet+[12]、SCSNet11、SPLNet16、AMPNet17、OPINENet+[18]、BCSNet14、MADUN19和我们网络的初步版本26,我们将其命名为FSOINet*.其中,CSNet+、SCSNet、BCSNet为普通的压缩感知网络,SPLNet、AMPNet、OPINENet+和MADUN为基于优化启发的压缩感知网络.为了更全面地比较,我们选取了从0.01到0.5中的五个采样率进行仿真实验.
表1可见,在0.01采样率下,基于深度学习的ICS方法的重构质量主要取决于网络在特征域的推理能力,普通的压缩感知网络得益于复杂的特征处理模块和特征域信息流动通道取得了优于现有的基于优化启发的压缩感知网络的重构质量.然而随着采样率的升高,观测值所含的信息量增加,GSR和基于优化启发的压缩感知网络通过优化步骤不断使用观测值优化重构图像,重构质量逐渐高过普通的压缩感知网络.而我们的方法在特征域展开传统优化算法,构建了特征域信息流动通道同时能够多次利用观测值优化特征,无论在低采样率或高采样率下均优于上述方法,FSOINet重构图像平均PSNR/SSIM较OPINENet+提高了1.09dB/0.0202.FSOINet+在Set11数据集上平均重构PSNR/SSIM较FSOINet再提升了0.19dB/0.0028.
表1 Set11数据集中各采样率不同算法重构图像PSNR(dB)/SSIM对比
方法 采样率
0.01 0.05 0.1 0.3 0.5 平均
GSR 16.78/0.4520 22.79/0.7155 26.64/0.8562 34.77/0.9466 38.76/0.9721 27.95/0.7885
SCSNet 21.04/0.5562 25.85/0.7839 28.52/0.8616 34.64/0.9511 39.01/0.9769 29.81/0.8259
CSNet+ 21.02/0.5566 25.86/0.7846 28.34/0.8508 34.30/0.9490 38.52/0.9749 29.61/0.8232
SPLNet 21.22/0.5552 26.59/0.8177 29.49/0.8874 35.79/0.9603 40.27/0.9815 30.67/0.8404
OPINENet+ 20.02/0.5362 26.36/0.8186 29.81/0.8904 36.04/0.9600 40.19/0.9800 30.48/0.8370
BCSNet 20.81/0.5427 26.50/0.7893 29.36/0.8650 35.40/0.9527 —— ——
AMP-Net 20.20/0.5425 26.17/0.8128 29.40/0.8876 36.03/0.9623 40.34/0.9821 30.43/0.8375
MADUN —— —— 29.91/0.8986 36.94/0.9676 40.77/0.9832 ——
FSOINet* 21.73/0.5937 27.36/0.8415 30.44/0.9018 37.00/0.9665 41.08/0.9832 31.52/0.8573
FSOINet 21.88/0.5958 27.30/0.8387 30.57/0.9020 37.00/0.9664 41.10/0.9833 31.57/0.8572
FSOINet+ 21.91/0.5984 27.47/0.8437 30.81/0.9056 37.30/0.9678 41.29/0.9837 31.76/0.8600
为了进一步验证本文网络的泛化性能,我们将FSOINet和FSOINet+与CSNet+、SCSNet、SPLNet、AMPNet、OPINENet+在BSDS68和Urban100上进行比较,如表2所示,我们的方法重构图像PSNR和SSIM均明显优于其他五种方法.在BSDS68数据集上我们的FSOINet和FSOINet+较五种方法中性能最好的SPLNet分别平均提升0.46dB与0.54dB,在Urban100数据集上我们的FSOINet较五种方法中性能最好的OPINENet+平均提升1.04dB,由于Urban100数据集中图像的规则性纹理较多,自注意力操作所能带来的性能提升也更高,FSOINet+较FSOINet进一步提升了0.30dB.图4图5给出了不同采样率下不同重构方法的重构图像的视觉效果对比.
表2 各采样率不同算法在不同数据集上重构图像PSNR(dB)/SSIM对比
数据集 方法 采样率 平均
0.01 0.05 0.1 0.3 0.5
BSDS68 CSNet+ 21.71/0.5249 25.04/0.6845 26.89/0.7756 31.66/0.9152 35.42/0.9614 28.14/0.7723
SCSNet 21.88/0.5250 24.98/0.6843 27.13/0.7785 31.76/0.9173 35.67/0.9640 28.28/0.7738
SPLNet 22.33/0.5242 25.87/0.7198 27.85/0.8094 32.77/0.9303 36.86/0.9708 29.13/0.7907
AMP-Net 22.28/0.5315 25.77/0.7204 27.85/0.8113 32.84/0.9321 36.82/0.9715 29.11/0.7934
OPINENet+ 21.88/0.5162 25.66/0.7136 27.81/0.8040 32.50/0.9236 36.32/0.9658 28.83/0.7846
FSOINet 22.80/0.5435 26.24/0.7328 28.28/0.8185 33.28/0.9345 37.36/0.9728 29.59/0.8004
FSOINet+ 22.83/0.5441 26.27/0.7340 28.39/0.8210 33.37/0.9352 37.47/0.9732 29.67/0.8015
Urban100 CSNet+ 19.27/0.4812 22.63/0.6792 24.64/0.7741 29.90/0.9162 33.55/0.9572 26.00/0.7616
SCSNet 19.28/0.4798 22.63/0.6774 24.93/0.7827 30.12/0.9193 33.92/0.9601 26.18/0.7639
SPLNet 19.55/0.4873 23.55/0.7301 26.19/0.8290 32.11/0.9405 36.41/0.9737 27.56/0.7921
AMP-Net 19.62/0.4969 23.45/0.7290 26.04/0.8283 32.19/0.9418 36.33/0.9737 27.53/0.7939
OPINENet+ 19.38/0.4872 23.70/0.7363 26.61/0.8362 32.58/0.9414 36.62/0.9727 27.78/0.7948
FSOINet 20.05/0.5257 24.66/0.7761 27.62/0.8623 33.88/0.9541 37.91/0.9788 28.82/0.8194
FSOINet+ 20.14/0.5331 24.80/0.7805 28.05/0.8718 34.29/0.9569 38.31/0.9800 29.12/0.8245
图4 0.1采样率下图像Barbara(Set11)的重构图像视觉效果对比

Full size|PPT slide

图5 0.3采样率下图像image_054(Urban100)的重构图像视觉效果对比

Full size|PPT slide

图4所示,对于0.1采样率下的Barbara图像,CSNet+与SCSNet均无法还原出围巾的纹理,细节信息损失严重;而SPLNet与AMPNet引入了迭代优化的思想,重建出了部分纹理,但纹理处有着明显的振铃效应;OPINENet+重建出错误的纹理;而FSOINet重建出了较大一部分的纹理且条纹边缘更为清晰,而FSOINet+重构图像纹理细节最为饱满.在图5更高采样率的重构结果中,可以明显看出,前五种方法重建的左窗户都有着不同程度的模糊和人工效应,而FSOINet与FSOINet+重建出的石砖与窗户具有更少的噪声与更为清晰的纹理.
为了比较不同方法的时间与空间复杂度,本文给出了0.5和0.1采样率下五个优化启发网络的参数量与平均运行时间对比.对比数据均使用作者提供的源码在相同环境下对Set11与BSD68数据集进行测试得到.如表3所示,由于使用的重构网络结构大小相同,同一方法不同采样率模型的运行时间相近.本文网络参数量均少于其他三种优化启发方法,同时在不同的测试集上均拥有中等的运行时间.
表3 不同采样率不同算法在Set11与BSDS68上的复杂度对比
方法 参数量 0.5采样率 0.1采样率
Set11 BSDS68 Set11 BSDS68
平均运行时间/s
SPLNet 1.388M 0.0061 0.0076 0.0090 0.0089
AMPNet 1.529M 0.0562 0.0671 0.0564 0.0649
OPINENet+ 1.095M 0.0087 0.0126 0.0134 0.0132
FSOINet 1.061M 0.0198 0.0184 0.0215 0.0190
FSOINet+ 1.086M 0.0294 0.0264 0.0283 0.0258

3.3 消融实验与分析

3.3.1 网络单元数量

由于网络每一个优化阶段对应于传统迭代算法中的一次迭代,可以预期随着网络优化阶段数的增多,重构性能也会随之提高,图6给出了在0.1采样率情况下,不同优化阶段数Nopt训练得到的FSOINet在Set11数据集的重构结果,可以看出随着优化阶段数Nopt的增加,网络的重构性能也随之增加,但时间空间复杂度也会随之增加.综合考虑模型性能与复杂度,选取Nopt=16为我们的默认优化阶段数.
图6 0.1采样率不同优化阶段数在Set11上的平均重构结果

Full size|PPT slide

3.3.2 模块消融

本节在0.5采样率下对三个模块进行了消融实验.如表4所示,在高采样率下由于观测值所含信息量更为丰富, FSIM较DDM给予FSOINet更多的性能提升,在三个数据集下为重构图像分别带来了1.45dB,1.00dB和1.60dB的PSNR提升.WSEM作为增强网络捕捉非局部自相似性能力的模块,进一步带来了0.19dB,0.11dB和0.40dB的PSNR性能提升.综上所述,本文所提的三个功能模块均给压缩感知重构图像带来了一定的性能提升.
表4 0.5采样率下不同模块的消融实验
模型设置 测试集PSNR/dB
FSIM DDM WSEM Set11 BSDS68 Urban100
× × 40.22 36.82 36.31
× × 39.65 36.36 35.38
× 41.10 37.36 37.91
41.29 37.47 38.31

3.3.3 迁移学习策略

图7给出了随机初始化参数进行训练与使用0.5采样率模型迁移获得的初始参数进行训练的0.1采样率FSOINet的loss曲线图.迁移训练由于使用更优秀的初始化参数,loss下降速度更快,在训练中期loss明显低于随机初始参数的模型,为了进一步给出不同训练方法所得模型的泛化性能,表5给出了两种方式训练得到的三个不同采样率的模型在Set11数据集上的仿真结果.当只训练40个epoch时,随机初始化训练的网络模型还未收敛,重构质量较低,而使用了迁移学习策略的网络模型拥有着更为合适的初始化参数,训练时更不容易陷入局部最优点,能够在较短的训练周期中完成收敛,以节约大量的训练时间;而单独将从头随机初始化训练的网络模型训练100个epoch后,尽管此时模型的loss已低于迁移训练所得模型,但由于高采样率模型学习得到的知识对低采样率模型训练所起的指导作用,使得迁移学习得到的网络模型具有更好的泛化性能,较随机初始化训练的网络模型有着平均0.04~0.07dB的重构性能提升.
图7 0.1采样率下不同参数初始化策略的训练loss曲线图

Full size|PPT slide

表5 不同训练策略的FSOINet在Set11上的重构图像PSNR(dB)/SSIM
训练策略 0.01采样率 0.1采样率 0.3采样率
随机初始化训练40 epoch 21.77/0.5920 30.31/0.8995 36.74/0.9651
随机初始化训练100 epoch 21.81/0.5940 30.51/0.9021 36.96/0.9660
迁移学习40 epoch 21.88/0.5958 30.57/0.9020 37.00/0.9664

4 结论

本文提出了特征域优化启发网络FSOINet与自注意力增强特征域优化启发网络FSOINet+,通过逐步优化图像特征得到了高质量的重构结果.同时,本文还将迁移学习策略应用于不同采样率图像压缩感知重构网络训练中,提高了网络学习效率与重构质量.未来工作将考虑将特征域优化思想延伸至视频重建任务中.

References

1
DONOHOD L. Compressed sensing[J]. IEEE Transactions on Information Theory, 2006, 52(4): 1289-1306.
2
DUARTEM F, DAVENPORTM A, TAKHARD, et al. Single-pixel imaging via compressive sampling[J]. IEEE Signal Processing Magazine, 2008, 25(2): 83-91.
3
ZHUL, WUX, SUNZ, et al. Compressed-sensing accelerated 3-dimensional magnetic resonance cholangiopancreatography: application in suspected pancreatic diseases[J]. Investigative Radiology, 2018, 53(3): 150-157.
4
YUANX, BRADYD J, KATSAGGELOSA K. Snapshot compressive imaging: theory, algorithms, and applications[J]. IEEE Signal Processing Magazine, 2021, 38(2): 65-88.
5
禤韵怡, 杨春玲. 基于帧间组稀疏的两阶段递归增强视频压缩感知重构网络[J]. 电子学报, 2021, 49(3): 435-442.
XUANYun-yi, YANGChun-ling. Two-stage recursive enhancement reconstruction based on video inter-frame group sparse representation in compressed video sensing[J]. Acta Electronica Sinica, 2021, 49(3): 435-442. (in Chinese)
6
GANL. Block compressed sensing of natural images[C]//15th International Conference on Digital Signal Processing. Cardiff: IEEE, 2007: 403-406.
7
CHENC, TRAMELE W, FOWLERJ E. Compressed-sensing recovery of images and video using multihypothesis predictions[C]//2011 Conference Record of the Forty Fifth Asilomar Conference on Signals, Systems and Computers. Pacific Grove: IEEE, 2011: 1193-1198.
8
ZHANGJ, ZHAOD, GAOW. Group-based sparse representation for image restoration[J]. IEEE Transactions on Image Processing, 2014, 23(8): 3336-3351.
9
KULKARNIK, LOHITS, TURAGAP, et al. Reconnet: non-iterative reconstruction of images from compressively sensed measurements[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 449-458.
10
SHIW, JIANGF, ZHANGS, et al. Deep networks for compressed image sensing[C]//2017 IEEE International Conference on Multimedia and Expo. Hong Kong: IEEE, 2017: 877-882.
11
SHIW, JIANGF, LIUS, et al. Scalable convolutional neural network for image compressed sensing[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. Long Beach: IEEE, 2019: 12290-12299.
12
SHIW, JIANGF, LIUS, et al. Image compressed sensing using convolutional neural network[J]. IEEE Transactions on Image Processing, 2020, 29: 375-388.
13
CHENJ, SUNY, LIUQ, et al. Learning memory augmented cascading network for compressed sensing of images[C]//2020 European Conference on Computer Vision. Glasgow: Springer, 2020: 513-529.
14
ZHOUS, HEY, LIUY, et al. Multi-channel deep networks for block-based image compressive sensing[J]. IEEE Transactions on Multimedia, 2021, 23: 2627-2640.
15
ZHANGJ, GHANEMB. ISTA-Net: interpretable optimization-inspired deep network for image compressive sensing[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 1828-1837.
16
裴翰奇, 杨春玲, 魏志超, 曹燕. 基于SPL迭代思想的图像压缩感知重构神经网络[J]. 电子学报, 2021, 49(6): 1195-1203.
PEIHan-qi, YANGChun-ling, WEIZhi-chao, CAOYan. Image compressive sensing reconstruction network based on iterative SPL theory[J]. Acta Electronica Sinica, 2021, 49(6): 1195-1203. (in Chinese)
17
ZHANGZ, LIUY, LIUJ, et al. AMP-Net: denoising-based deep unfolding for compressive image sensing[J]. IEEE Transactions on Image Processing, 2021, 30: 1487-1500.
18
ZHANGJ, ZHAOC, GAOW. Optimization-inspired compact deep compressive sensing[J]. IEEE Journal of Selected Topics in Signal Processing, 2020, 14(4): 765-774.
19
SONGJ, CHENB, ZHANGJ. Memory-augmented deep unfolding network for compressive sensing[C]//2021 ACM International Conference on Multimedia. Chengdu: ACM, 2021: 4249-4258.
20
D'ASCOLIS, TouvronH, LeavittM L, et al. Convit: improving vision transformers with soft convolutional inductive biases[C]//2021 International Conference on Machine Learning. Virtual Only: ACM, 2021: 2286-2296.
21
ARBEL'AEZP, MAIREM, FOWLKESC, et al. Contour detection and hierarchical image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 898-916.
22
KINGMAD P, BAJ. Adam: A method for stochastic optimization[EB/OL]. [2022-04-11].
23
LOSHCHILOVI, HUTTERF. Sgdr: Stochastic gradient descent with warm restarts[EB/OL]. [2022-04-11].
24
MARTIND, FOWLKESC, TAL D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//2001 IEEE International Conference on Computer Vision. Vancouver: IEEE, 2001: 416-423.
25
HUANGJ B, SINGHA, AHUJAN. Single image super-resolution from transformed self-exemplars[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 5197-5206.
26
CHENW, YANGC, YANGX. FSOINET: feature-space optimization-inspired network for image compressive sensing[EB/OL]. [2022-04-11].

Funding

National Natural Science Foundation of Guangdong Province(2019A1515011949)
PDF(2714 KB)

3061

Accesses

0

Citation

Detail

Sections
Recommended

/