202605 论文研读-Sound Event Detection and Localization with Distance Estimation

作者：Daniel Aleksander Krause, Archontis Politis, Annamaria Mesaros

时间：2024

来源： IEEE Proceedings

背景

声音事件检测与定位，SELD，通常同时完成两件事：识别“发生了什么声音事件”，以及估计该声音事件的到达方向 DOA。传统 SELD 只给出方向信息，例如方位角、俯仰角或三维方向向量，但不能给出声源到麦克风/听者的距离。在机器人听觉、智能监控、增强现实、助听设备、人机交互等应用中，仅知道方向并不够，还需要知道声源在三维空间中的完整位置。以往声音距离估计，SDE，研究多与双耳音频或单独定位任务结合，较少与声音事件检测、DOA 定位统一建模。因此，本文将 SELD 扩展为 3D SELD：同时进行声音事件检测、方向定位和距离估计。

核心贡献

提出 3D SELD 任务定义：在原有 SELD 的事件类别与 DOA 估计基础上，加入距离估计，使系统能够估计声源三维位置。
提出 Multi-ACCDDOA 表示：在 multi-ACCDOA 的基础上，把原本的三维 DOA 向量扩展为包含距离的输出表示。
比较两种建模方式：一种是多任务结构，分别输出 SELD 与距离；另一种是单任务的 Multi-ACCDDOA 结构。
比较不同损失函数：针对距离估计部分实验 MSE、MAE、MSPE、MAPE，分析距离损失对 SELD 性能和距离误差的影响。

方法

输入特征：
- Ambisonics/FOA：使用 4 通道幅度谱转换为 64 维 Mel 能量，并加入 3 个强度向量特征，总计 7 个特征通道。
- Binaural：使用双耳平均幅度谱，并加入 IPD 的 sine/cosine 表示和 ILD，总计 4 个特征通道。
- STFT 设置：40 ms Hamming 窗，50% overlap；每个输入片段长度为 250 帧。

模型结构：
- 使用 CRNN 架构：3 个二维卷积块 + 2 层双向 GRU + 2 层 Multi-Head Attention。
- 每个卷积块含 128 个卷积核、BatchNorm 和池化。
- 最后通过全连接层输出事件类别、方向和距离相关信息。

方法一：Multi-task
- 分成两个输出分支。
- 第一个分支使用 ACCDOA 表示完成 SELD，即事件活动与 DOA 向量耦合。
- 第二个分支单独预测每个类别的距离。
- 优点是结构直观，距离估计与 SELD 可分开优化。
- 缺点是不能区分同一类别中多个重叠声源。
方法二：Multi-ACCDDOA
- 将 multi-ACCDOA 扩展为包含距离的表示。
- 输出形式可以理解为：每个 track、每个类别、每个时间帧同时预测事件活动、DOA 向量和距离。
- 支持最多 3 个重叠声源，并可处理同类重叠事件。
- 使用 ADPIT，即 Auxiliary Duplicating Permutation Invariant Training，解决 track 与真实声源之间的排列匹配问题。

实验

数据集：STARSS23，Sony-TAU Realistic Spatial Soundscapes 2023。
真实录音规模：7 小时 22 分钟；训练集 90 个 clips，测试集 78 个 clips。
类别数：13 类，包括男女说话、拍手、电话、笑声、家庭声音、脚步、门声、音乐、乐器、水龙头、铃声、敲击等。
重叠情况：最多 3 个同时存在的声源。

结果

论文分别在 Ambisonics/FOA 音频和 Binaural 双耳音频上进行了实验，并比较了两类方法：Multi-task 和 Multi-ACCDDOA。评价指标包括声音事件检测错误率 ER、F1 值、DOA 定位误差、定位召回率 Recall，以及距离估计误差 Dist. error。

在 Ambisonics 音频上，整体效果最好的是 Multi-ACCDDOA + MSE，其结果为：ER = 0.65，F1 = 44.2%，DOA error = 22.9°，Recall = 68.4%，距离误差为 0.92 m。相比之下，Multi-ACCDDOA + MAE 虽然取得了最低的距离误差 0.74 m，但 F1 下降到 21.5%，Recall 也下降到 19.1%，说明 MAE 会明显损害事件检测和定位性能。

在 Binaural 音频上，整体性能低于 Ambisonics。最佳综合结果仍来自 Multi-ACCDDOA + MSE，其 ER = 0.87，F1 = 21.1%，DOA error = 39.7°，Recall = 48.0%，距离误差为 0.99 m。Multi-ACCDDOA + MAE 的距离误差最低，为 0.75 m，但 F1 仅为 5.4%，检测性能严重下降。

结论

本文证明了在不明显损害原有声音事件检测和 DOA 定位能力的情况下，可以把距离估计加入 SELD，形成 3D SELD。Multi-ACCDDOA 比简单多任务结构更有优势，因为它支持同类重叠声源，并在整体 SELD 指标上表现更好。但距离估计和 SELD 的最优损失函数并不一致：MSE 有利于 SELD，MAE 有利于距离估计。未来工作可以设计混合损失函数，兼顾 SELD 的稳定性和距离估计精度；也可以结合 Multi-ACCDDOA 的 track-wise 表示与多任务输出结构。