202501论文研读-ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis

作者：He Xiangheng等

单位：Imperial College London

来源：AAAI 2025

一、主要内容

韵律对语音可理解性至关重要，目前模型在划分停顿和语调方面存在不足。ProsodyFM引入停顿编码器和语调编码器，有效改善韵律的停顿和语调方面，并站展现出卓越的泛化能力。

二、论文贡献

三、方法

ProsodyFM旨在从参考语音中提取停顿和语调模式，调整这些模式并匹配目标文本，使用最优传输条件流匹配OT-CFM进行训练。ProsodyFM从原始文本中预测mel谱图，使用HifiGAN声码器转换为波形。

四、结果

数据集：LibriTTS

客观评价指标：RMSE_F0对数尺度F0均方根误差，F1_break中断分类F1分数，WER词错率。

主观评价指标：MOS平均意见得分

消融实验：

五、结论

提出新的韵律感知TTS模型，在不需要韵律标签的情况下增强停顿和语调，实现了对停顿和语调的强大、精确和细粒度的控制。

六、对齐思考