202605 论文研读-A comparison of methods for modeling soundscape dimensions based on different datasets

作者: Siegbert Versümer、Patrick Blättermann、Fabian Rosenthal、Stefan Weinzierl
单位: 德国杜塞尔多夫应用科技大学声学与振动工程研究所, 德国柏林工业大学音频通信组
来源: JASA
时间: 2025年1月

一、研究背景

二、核心贡献

三、方法

外层 5 折用于无偏估计模型性能，内层 5 折用于选择超参数和模型；同时划分时考虑标签分布和 group 结构，避免小样本声景数据中因为标签不平衡或 group 泄漏导致的虚高性能。

四、实验

1.实验准备

2.实验结果——Predictability of Pleasantness and Eventfulness

(1)在MSE结果表中，大多数Eventfulness的MSE比Pleasantness的更低。
(2)在out-of-sample R² 结果表中，Eventfulness 的 R² 通常高于 Pleasantness。(3)在R² 箱线图中，ARAUSD 和 HSDD 的 Eventfulness 箱体整体高于 Pleasantness，而 ISD 比较特殊。
(4)在方差解释表中，ISD 中Eventfulness 的 MSE 更低，但 R² 反而比 Pleasantness 低，是其总方差更小。

3.实验结果——Method comparison and FE NR vs LR models

(1)表五和表六中大部分例子中，非线性回归 NR 优于线性回归 LR。
(2)树模型 RF/XGBoost 在 19/27 个比较中优于 MARS 和 SVR；尤其在 HSDD Eventfulness 上，RF/XGBoost 明显比 MARS/SVR 更强。

4.实验结果——Effect of data leakage in FE and ME methods

(1)比较表五和表六中三种划分，当group被分散到不同fold后，模型性能普遍上升。
(2)ARAUS提升较小是因为其本身设计得很平衡。
(3)混合效应模型在有group泄露的时候，总是优于固定效应模型，但不代表真实泛化能力。
(4)通过下表的额外检查，数据泄漏会让 MSE 降低、R² 小幅升高。

5.实验结果——Model robustness

(1)大多数有效模型中，inner CV 的 dMSE 都能控制在 0.05 以下，说明 objective function 基本起作用。
(2)但无法完全防止过拟合，train MSE和testMSE接近，但R²仍然下降很多，说明声景任务本身很难泛化。

五、总结

(1)本文的核心贡献是提出了一套更严格、更统一的声景建模与评估框架，用于公平比较不同方法和数据集。
(2)声景评价中，Eventfulness 通常比 Pleasantness 更容易预测，尤其在 HSDD 和 ARAUSD 上表现明显。
(3)非线性模型（RF、XGBoost）整体优于线性回归，说明声景感知与声学变量之间存在明显非线性关系。
(4)group leakage 会显著抬高模型性能，因此 participant/location 的分组划分和 nested cross-validation 对声景任务非常重要。

六、对齐思考

1.方法创新点——全域数据拓扑建模:给出来一个系统性且合理的评估框架，用于评估不同数据集，可以采用文中方法用来和其他论文方法对比。

2.技术目标点——跨域知识结构对齐: 其他或者早期论文进行声景预测时，某些可能会有隐藏的数据泄露，文中给出了一种严格测试的方法，并给出了一种防止过拟合以及欠拟合的目标函数。

3.中试产品点——埃觅文旅: 对于不同的声景，可以通过严格的评估方式，防止性能假虚高。