202601 论文研读-助听器端到端联合声反馈抑制和去噪去混响研究

2026年1月20日-yuehan

作者:王梅煌,章辉勇,徐晨阳,李晓东,郑成诗

单位:中国科学院噪声与振动重点实验室(声学研究所)、中国科学院大学

1、背景

助听器是听力受损人群听力重建的核心设备,其通过传声器拾取声音、放大后重放以补偿听力损失,但实际应用中面临三大关键技术难题:一是受话器与传声器间的声反馈易导致系统啸叫,限制增益提升;二是环境噪声会掩盖目标语音,而听损人群对噪声更敏感;三是封闭空间的混响会模糊语音,降低可懂度。

传统助听器采用独立算法分别处理三类问题后级联,缺乏协同优化,性能受限;现有深度学习方法虽能联合去噪与去混响,但未涵盖声反馈抑制,且单阶段模型或独立训练的多阶段模型难以兼顾三类干扰的抑制效果,无法满足实际使用需求。

2、主要贡献

该研究的主要贡献集中在方法创新、性能提升与实用适配三大维度,具体如下:

  1. 提出两阶段端到端联合优化框架,首次实现声反馈抑制、去噪、去混响的同步解决,打破传统独立算法级联的性能局限,通过 MFC-Net 与 Prox-Net 分工协同,兼顾强干扰抑制与残留干扰清理。
  2. 创新数据生成与训练策略,通过经验公式仿真大量声反馈路径,结合噪声、混响数据构造多样化训练集,采用 “幅度谱 + 复数谱” 联合损失函数与离线联合训练,提升模型鲁棒性与泛化能力。
  3. 实现低时延与高性能平衡,通过网络结构优化(分组 LSTM、跳跃连接)和 STFT 参数调整,将系统时延控制在 1ms,满足助听器实时应用需求。
  4. 实验验证优势显著,在无噪、带噪、声反馈路径突变等场景下,所提方法在 PESQ、ESTOI、SegSNRfw​等客观指标上均优于传统算法和单阶段 / 独立训练模型,为助听器算法优化提供新范式。

3、方法

该研究的核心方法是两阶段端到端联合优化方法,用于同步解决助听器声反馈、噪声和混响问题,具体如下:

  1. 数据生成:
    基于助听器临界稳定工作状态,通过闭环系统仿真构造训练数据:
    用经验公式生成 10000 条不同参数(调制频率、衰减系数等)的声反馈路径;
    纯净语音与 DNS 数据集噪声按 5-20dB 信噪比混合,再与镜像法仿真的房间脉冲响应(RIR)卷积,生成带噪带混响信号;
    目标信号保留 RIR 的 5ms 早期反射部分,形成带噪、带混响、带声反馈的输入 – 目标配对数据。
  2. 两阶段网络架构:
    第一阶段(MFC-Net):采用门控卷积循环网络(GCRN),含编码器、分组长短时记忆模块(GLSTM)和解码器,直接映射目标语音复数谱,抑制声反馈与噪声;
    第二阶段(Prox-Net):基于深度近端优化,受 WPE 算法启发,通过迭代更新滤波器系数,去除混响及第一阶段残留的声反馈和噪声。
  3. 训练策略:
    采用离线联合训练,两阶段网络共享损失函数,同步优化参数,避免模块失配;
    引入 “幅度谱 + 复数谱” 联合损失函数,缓解相位估计不准确导致的幅度失真;
    采用压缩谱策略提升去混响性能,通过 STFT 参数调整(16kHz 采样率、320 点窗长等),将系统时延控制在 1ms。

4、实验

  1. 实验目的
    验证所提两阶段端到端联合优化方法在声反馈抑制、去噪、去混响同步处理中的性能,对比传统算法、单阶段模型及独立训练两阶段模型的效果,评估模型在不同场景下的鲁棒性与低时延特性。
  2. 实验设置
    数据集:纯净语音取自 WSJ0-SI84 语料库,噪声来自 DNS 数据集和 NOISEX-92 的 babble 噪声,混响通过镜像法仿真 RIR 生成(混响时间 0.6s/0.8s/1.0s),声反馈路径含 10000 条仿真路径及 2 条未参与训练的实录路径。
    基线方法:包括无处理(Unprocessed)、传统算法级联(WPE/SS/AFC)、仅去噪去混响模型(DeepNR+DR)、单阶段模型(DeepMFC)、两阶段独立训练模型(MFC+Prox (S))。
    评价指标:采用 PESQ(语音质量)、ESTOI(语音可懂度)、SegSNRfw​(加权分段信噪比),系统时延控制为 1ms。
  3. 实验场景与结果
    无噪带混响场景:所提方法(MFC+Prox (J))在各临界增益区间均最优,PESQ 达 2.38、ESTOI 达 0.65、SegSNRfw​达 8.99dB,显著优于传统算法和单阶段模型。
    带噪带混响场景:噪声导致各算法性能下降,但所提方法仍保持最优,PESQ 达 2.13、ESTOI 达 0.58、SegSNRfw​达 7.55dB,且保留完整语音结构。
    声反馈路径突变场景:传统 AFC 算法因收敛问题性能下降,所提方法鲁棒性强,保持稳定性能(PESQ 达 2.34、ESTOI 达 0.64)。
  4. 实验结论
    所提两阶段端到端联合训练方法在各类场景下,均在语音质量、可懂度和信噪比指标上优于对比方法,且低时延、鲁棒性强,有效解决了助听器三类干扰同步抑制问题。

5、论文总结

该论文针对传统助听器独立处理声反馈、噪声和混响的性能局限,提出两阶段端到端联合优化方法。通过闭环仿真生成带三类干扰的训练数据,第一阶段 MFC-Net 抑制声反馈与噪声,第二阶段 Prox-Net 去除混响及残留干扰,两阶段网络离线联合训练。实验表明,该方法在低时延(1ms)前提下,在 PESQ、ESTOI 等指标上显著优于传统算法和单阶段 / 独立训练模型,鲁棒性更强,为助听器信号处理提供新范式。