作者: Siegbert Versümer、Patrick Blättermann、Fabian Rosenthal、Stefan Weinzierl
单位: 德国杜塞尔多夫应用科技大学声学与振动工程研究所, 德国柏林工业大学音频通信组
来源: JASA
时间: 2025年1月
一、研究背景

二、核心贡献

三、方法


外层 5 折用于无偏估计模型性能,内层 5 折用于选择超参数和模型;同时划分时考虑标签分布和 group 结构,避免小样本声景数据中因为标签不平衡或 group 泄漏导致的虚高性能。
四、实验
1.实验准备

2.实验结果——Predictability of Pleasantness and Eventfulness
(1)在MSE结果表中,大多数Eventfulness的MSE比Pleasantness的更低 。
(2)在out-of-sample R² 结果表中,Eventfulness 的 R² 通常高于 Pleasantness。(3)在R² 箱线图中,ARAUSD 和 HSDD 的 Eventfulness 箱体整体高于 Pleasantness,而 ISD 比较特殊。
(4)在方差解释表中,ISD 中Eventfulness 的 MSE 更低,但 R² 反而比 Pleasantness 低,是其总方差更小。

3.实验结果——Method comparison and FE NR vs LR models
(1)表五和表六中大部分例子中,非线性回归 NR 优于线性回归 LR。
(2)树模型 RF/XGBoost 在 19/27 个比较中优于 MARS 和 SVR;尤其在 HSDD Eventfulness 上,RF/XGBoost 明显比 MARS/SVR 更强。


4.实验结果——Effect of data leakage in FE and ME methods
(1)比较表五和表六中三种划分,当group被分散到不同fold后,模型性能普遍上升。
(2)ARAUS提升较小是因为其本身设计得很平衡。
(3)混合效应模型在有group泄露的时候,总是优于固定效应模型,但不代表真实泛化能力。
(4)通过下表的额外检查,数据泄漏会让 MSE 降低、R² 小幅升高。

5.实验结果——Model robustness
(1)大多数有效模型中,inner CV 的 dMSE 都能控制在 0.05 以下,说明 objective function 基本起作用。
(2)但无法完全防止过拟合,train MSE和testMSE接近,但R²仍然下降很多,说明声景任务本身很难泛化。


五、总结
(1)本文的核心贡献是提出了一套更严格、更统一的声景建模与评估框架,用于公平比较不同方法和数据集。
(2)声景评价中,Eventfulness 通常比 Pleasantness 更容易预测,尤其在 HSDD 和 ARAUSD 上表现明显。
(3)非线性模型(RF、XGBoost)整体优于线性回归,说明声景感知与声学变量之间存在明显非线性关系。
(4)group leakage 会显著抬高模型性能,因此 participant/location 的分组划分和 nested cross-validation 对声景任务非常重要。
六、对齐思考
1.方法创新点——全域数据拓扑建模:给出来一个系统性且合理的评估框架,用于评估不同数据集,可以采用文中方法用来和其他论文方法对比。
2.技术目标点——跨域知识结构对齐: 其他或者早期论文进行声景预测时,某些可能会有隐藏的数据泄露,文中给出了一种严格测试的方法,并给出了一种防止过拟合以及欠拟合的目标函数。
3.中试产品点——埃觅文旅: 对于不同的声景,可以通过严格的评估方式,防止性能假虚高。