作者:Weiyi Kong, Zhisheng You, Shiyang Lyu, Xuebin Lv
单位:四川大学
来源:Information Sciences 2024 January
一、研究背景
1.医学应用场景部分:目前,人们心理健康方面疾病的出现概率较高,而传统的心理治疗方法更多是面对面的诊断,这对于心理治疗师的数量和他们的专业素质水平有着极高的要求。心理诊断方向的视觉元宇宙构建,能够突破地域上的限制,可以将三维面部重建、AI深度学习等相关技术集成其中,现在还处于起步阶段,面部微表情的三维重建是研究的重点。
2.3D version部分:大多数现有的 3D 物体的视觉表示都使用体素、网格或点云特征。体素将三维对象描述为体素网格,但通常存在分辨率低、存储成本高等问题;网格在动画中很常见,但这些表示与 3D 输出没有直接关系;将三维物体的形状信息确定为三维点云的中心,通过三维传感器可以很容易地获取,但三维物体产生的无序三维点可能会干扰后续的计算和分析。而随着深度学习技术,特别是卷积神经网络(CNN)的快速发展,多域研究与卷积神经网络(CNN)的结合成为跨学科研究的热点。
3.核心相关部分:目前研究主要基于二维图像和视频帧作为输入,但传统的图像处理方法无法跟踪快速变化的微表情,人脸的情绪状态是通过比较数据库中存储的标准表情模型来确定的。这种方法相对简单快捷,但可能会对光线、角度和表现的复杂程度产生一些影响。对于面部微表情和情绪的识别和分析,大多数研究都是基于图像本身,而在实际情况下,是需要对视频采集数据中的面部情绪进行处理以进行分析。
二、论文主要贡献
在本文中,作者创新性地提出了一种具有多分辨率和深度注意力机制的 3D 重建网络,用于医学元宇宙中人脸的深度和复杂情感分析,用于 3D 人脸的微表情建模和情感分析,具体贡献如下:
1.与传统神经网络相比,作者创新性地设计了不同分辨率的三维卷积模块,可以捕捉到更详细的面部微表情变化。此外,它还克服了口罩等物体被遮挡时的重建变形,该算法鲁棒性和抗干扰能力的提升,使得构建心理健康诊断的元宇宙成为可能。
2.网络框架采用了多模态融合策略,并创新性地引入了改进的三维通道注意力模块,提高了网络对微表情变化的预测率,有利于实时输出具有细腻纹理的微表情图像。同时在保证算法准确性的同时,加快了微表达式的重建速度,为端到端的虚拟会诊平台提供了支撑。
3.本文提出了一种用于心理辅助诊断的多分辨率 3D 面部重建算法,为医学元宇宙的构建提供了有效支持。可实现心理治疗师与患者之间的远程实时对话诊断,同时也可用于新心理治疗师的模拟培训。
三、网络主要模块架构
本文中提出的网络模型主要分为前端特征提取模块、姿态估计匹配与优化模块和多模态融合模块。
1.Multidimensional feature extraction module

多维特征提取模块是深度复合网络的第一个子网络,输入的RGB图像通过一系列多尺度的三维卷积来深度学习再现。第一尺度三维卷积用于提取原始图像的面部特征的边缘信息,即粗尺度特征;第二个尺度是 3D 卷积,用于捕获面部纹理的二维颜色信息。第三个尺度中,使用三维卷积提取局部细节的深度信息。

上方是特征代价公式,其中表示第三个(最高)图层的特征值,是 SoftMax 操作。表示 3D 转置卷积层输出中像素 n 的值。R 是图像缩放比例。即第一层(最低)分辨率 r = 1/4,第三层(最高)层 r = 1。
为了更清楚地显示特征提取和残差链接之间的关系,多维特征提取主要使用高频分辨率和低频分辨率两个特征提取器。
2.3D residual attention module
为了更好地利用高频和低频特征提取模块,作者设计了一个双三维残差注意力模块,并将其用于网络中,下图即为模块具体的原理结构图。

它由空间和通道的双重注意力机制组成,通过双注意力机制模块得到注意力图谱,然后将原始输入和地图进行加权求和,得到注意力机制模块的总输出。
3.Loss
在本文中,SMOOTHL1 被用作基本的损失函数。这是因为它可以保证模型的快速收敛,并在一定程度上减少异常的异常值数量,可以帮助输出连续预测的特征值。它的分段表达式如下:

四、实验讨论
1.训练数据集选取:使用CASME II 数据集、CAS(ME)2 数据集和智胜数据集三个原始数据集。
2.数据集分析: 下方图一反映了数据集样本不同情绪视频流图像的分布,图二反映了一些随机选择的样本图像中积极情绪的比例,其中蓝色代表正定量样本,白色背景代表负定量样本。从两张图像中可以看出,样本图像的情感非常丰富,有利于数据的训练,有助于网络学习更多的微表达式变化,以提高重建的细节处理。


3.训练环境:算法实验全部在Ubuntu系统上进行,使用的语言是Python 3.6,深度神经网络卷积网络是用PyTorch框架构建的。训练中使用的GPU和CPU型号为GeForce GTX 1080Ti和分别是英特尔i7-7700。
4.重建实验:实验中的网络架构采用多分辨率架构,将高分辨率和低分辨率的 3D 卷积集成到一个 3D 成本体中,其中高频和低频 3D 卷积用于计算和分析面部骨骼结构和纹理特征。之后,通过网络的融合层,将计算出的多维特征与成本量融合。由于网络架构从一开始就采用了密集对齐,因此生成的纹理特征成本体积和深度图像完全对应。最后,通过立体融合,重建具有精细纹理特征的人脸图像。

上图为深度图和对应的三维重构面部情绪图,这是从重建实验结果中随机选取了一组微表达图像、深度图和带纹理的重建图像的结果,展示了 Face Depth Image 和 Texture Image 的融合结果,这也充分证明了该网络结构可以完成医学元宇宙中心理诊断的面部重建任务。
五、总结
本文提出了一种由立体误差监督的新型深度 3D 面部重建网络,它被认为是构建医学元宇宙心理诊断平台的有效手段。该网络由两个子模型组成,多分辨率特征捕获模块用于提取不同级别的面部特征。residual attention mechanism 模块用于提高训练和预测速度;residual module 也用于学习更详细的特征,通过最终的融合重建,实现了真实人脸到虚拟空间人脸的重建。