2025年10月15日 – yuehan
作者:Jiaming Cheng,Ruiyu Liang,Li Zhao,Chengwei Huang,Bjorn W. Schuller
来源:IEEE signal processing letters(2023)
单位:东南大学
1、背景
- 听力损失现状严峻:全球约 5 亿人存在听力损失,助听器是听力康复的主要手段,但现有设备在嘈杂环境下难以有效补偿听力损失。
- 现有技术存在短板:传统助听器降噪方法(如单通道时频法、波束成形)或受限于语音清晰度提升效果,或无法应对噪声方向动态变化的场景;基于深度学习的算法虽在降噪上有突破,但大多未将降噪与听力损失补偿有效结合。
- 临床需求迫切:不同听障患者对特定频率的增益需求不同,补偿过程中若放大噪声会严重影响听觉质量,因此 “降噪的同时实现精准补偿” 成为亟待解决的挑战。
2、主要贡献
- 提出联合优化框架:首次构建基于频率 – 时间卷积循环网络(FT-CRN)的度量生成对抗网络(Metric GAN)框架,实现降噪与听力损失补偿的同步优化,而非传统的分阶段处理。
- 创新听力图嵌入方式:将听力图沿频率轴扩展,建立听力图与语音频谱频率区间的对应关系,解决了两者维度不匹配问题,尤其对重度听障患者的补偿效果更优。
- 引入度量判别器引导优化:设计度量判别器模拟听力辅助语音质量指数(HASQI)评分,以该评分为优化目标引导生成器训练,使模型输出更贴合听障患者的实际听觉需求。
- 增强模型稳定性与实用性:加入基于感知的损失函数(PMSQE、PASE)稳定训练过程,且模型为全因果结构、参数规模小(0.707M),便于在助听器等嵌入式设备上部署。
3、方法
1. 系统整体架构
- 输入:带噪语音经短时傅里叶变换(STFT)得到的复频谱,与沿频率轴扩展后的听力图嵌入特征拼接。
- 输出:经生成器处理后的 “降噪 + 补偿” 语音,由度量判别器评估其 HASQI 评分,同时通过感知损失函数约束生成质量。
2. 关键模块设计
- FT-CRN 生成器:包含编码器、双路径频率 – 时间模块、解码器。编码器用 5 层 2D 卷积提取特征并降低频率维度,解码器用转置卷积恢复特征尺寸,双路径模块通过双向 LSTM 和 LSTM 分别建模单时间帧的频谱特征与单频率点的时间相关性,同时通过跳跃连接加速模型收敛。
- 听力图扩展嵌入:听力图原始为 6 个频率点(250-8000Hz)的阈值数据,沿频率轴扩展为 257 维增益嵌入,使其与频谱特征维度匹配,且沿时间轴复制以确保对每帧语音的影响一致。
- 度量判别器:以 “清洁补偿语音频谱 + 生成语音频谱 + 听力图嵌入” 为输入,通过 4 个卷积块提取特征,经全局平均池化和全连接层输出 HASQI 预测评分,训练时与生成器交替优化,引导生成器向 “高 HASQI 评分” 方向更新。
3. 训练过程与损失函数
- 交替训练策略:先训练判别器,使其能准确区分 “理想清洁补偿语音” 与 “生成语音” 的 HASQI 差异;再冻结判别器,训练生成器以逼近 HASQI 评分 1(理想值)。
- 联合损失函数:生成器损失(\(\mathcal{L}_{G}\))包含对抗损失(与判别器输出的 MSE)、PMSQE 感知损失、PASE 特征距离损失;判别器损失(\(\mathcal{L}_{D}\))包含 “理想输入” 的评分误差与 “生成输入” 的评分误差,确保判别器评估的准确性。
4、实验
1. 实验设置
- 数据集:语音数据来自 Interspeech 2020 DNS 挑战赛(500 小时清洁语音、180 小时噪声),听力图来自美国国家健康与营养调查(NHANES),共 114 个,每段带噪语音随机匹配 1 个听力图。
- 数据处理:带噪语音由清洁语音与噪声按 – 5 至 15dB 随机信噪比混合生成,训练输入为 3 秒片段,采样率 16kHz;测试用官方无混响测试集。
- 对比模型:包括传统补偿方法(FIG6)、单通道语音增强模型(RNNoise、CRN、DCCRN 等),以及基于 FT-CRN 的变体(HL-Dense、HL-Embeded、HA-MGAN*)。
- 评价指标:HASQI(听力补偿效果)、WB-PESQ(语音感知质量)、STOI(语音清晰度)。
2. 关键结果
- 模块有效性验证:在不同听力损失程度(中度及以下、中重度、重度及以上)下,HL-Embeded(扩展嵌入)比 HL-Dense(全连接转换)在中重度及以上损失场景更优;加入度量判别器的 HA-MGAN 比变体模型在所有损失程度下的 HASQI 评分均提升 5%-8%。
- 整体性能对比:HA-MGAN 的 HASQI 评分(0.675)为所有模型最高,WB-PESQ(2.527)和 STOI(0.941)仅次于 DB-AIAT,但 DB-AIAT 为非因果结构无法部署,而 HA-MGAN 参数少、全因果,兼顾性能与实用性。
5、论文总结
文章针对助听器 “嘈杂环境下难以同时降噪与补偿” 的核心问题,提出了 FT-CRN 基度量生成对抗框架,通过听力图扩展嵌入、HASQI 导向的度量判别器、感知损失约束三大创新点,实现了更优的联合优化效果。实验证明,该模型在听力补偿质量(HASQI)上超越现有方法,且具备低参数、全因果的部署优势,为助听器的实际应用提供了可行方案。未来研究方向将聚焦模型压缩,以满足助听器的实时计算需求。