202512论文研读-L3C-DeepMFC: Low-Latency Low-Complexity Deep Marginal Feedback Cancellation with Closed-Loop Fine Tuning for Hearing Aids

2025年12月16日-yuehan

作者:Fengyuan Hao,Brian C. J. Moore,Huiyong Zhang,Xiaodong Li,Chengshi Zheng

来源:Interspeech 2025

单位:1、Laboratory of Noise and Audio Research, Institute of Acoustics, Chinese Academy of Sciences, Beijing, China
2、University of Chinese Academy of Sciences, Beijing, China
3、Cambridge Hearing Group, Department of Psychology, University of Cambridge, Cambridge, UK

1、背景

助听器因接收器与麦克风耦合会产生声学反馈,当增益超过最大稳定增益(MSG)时会出现啸叫,既限制了有效放大增益,也降低了听力损失患者的语音质量与可懂度。

现有反馈控制方法存在缺陷:传统方法(如频率偏移、陷波滤波)提升 MSG 幅度有限且易失真;自适应反馈抵消(AFC)受估计偏差制约;现有深度学习方法(如 DeepMFC)计算复杂度高、延迟大,难以适配助听器的低资源、低延迟需求。

2、主要贡献

1.提出L3C-DeepMFC 方法:实现低延迟(仅 4ms)、低复杂度的时频域反馈抑制,通过复谱映射估计无反馈语音的幅度和相位。

2.设计全带 – 子带循环建模:在捕捉谱时依赖的同时大幅降低计算复杂度,适配低资源硬件。

3.改进重叠相加法:结合锥形窗与帧合成逻辑,实现极低延迟的时域信号重构。

4.引入闭环微调技术:缓解训练与实际闭环估计的失配问题,显著提升 MSG 与系统稳定性。

5.融合传统 AFC 方法:进一步优化反馈抑制效果,减少残余伪影。

3、方法

L3C-DeepMFC 基于时频域复谱映射实现反馈抑制,核心流程为:

  1. 语音编码器:将输入信号转换为 D 维时频特征;
  2. 全带 – 子带循环模块:子带模块通过分组 LSTM 捕捉子带内时序依赖,全带模块通过分组 LSTM 获取全局信息,迭代优化特征;
  3. 语音解码器:在时频域重构无反馈语音;
  4. 低延迟重叠相加:仅用当前帧与下一帧合成信号,控制延迟为 4ms;
  5. 闭环微调:基于动态生成的反馈混合信号训练,减小训练 – 估计失配。

4、实验

1.数据集:采用 AISHELL-3 普通话语音、DNS 噪声及真实 / 采样反馈路径(Set-A/Set-B);

2.指标:用 WB-PESQ、HASQI-V2 评估语音质量,用 MSG、MACs、RTF 评估系统性能;

3.结果:L3C-DeepMFC 在宽增益下保持稳定,HASQI-V2 最高达 0.924,计算复杂度仅 0.43G/s,RTF=0.623;与 AFC 融合后性能进一步提升;闭环微调有效解决了谱泄漏导致的失真问题。

5、论文总结

L3C-DeepMFC 通过时频带分割建模、低延迟重构与闭环微调,实现了低延迟、低复杂度与高性能的平衡,显著提升了助听器的 MSG,在宽增益范围内保持稳定;与 AFC 结合后反馈抑制效果更优,具备实际应用于低资源助听器的潜力。