作者:He Xiangheng等
单位:Imperial College London
来源:AAAI 2025
一、主要内容
韵律对语音可理解性至关重要,目前模型在划分停顿和语调方面存在不足。ProsodyFM引入停顿编码器和语调编码器,有效改善韵律的停顿和语调方面,并站展现出卓越的泛化能力。
二、论文贡献
- 提出ProsodyFM,能够合成自然停顿和语调的语音。
- 为停顿标签和语调建模提供新的有效的解决方案。
- 发布演示、代码和模型权重促进进一步研究。
三、方法
ProsodyFM旨在从参考语音中提取停顿和语调模式,调整这些模式并匹配目标文本,使用最优传输条件流匹配OT-CFM进行训练。ProsodyFM从原始文本中预测mel谱图,使用HifiGAN声码器转换为波形。



四、结果
数据集:LibriTTS
客观评价指标:RMSEF0对数尺度F0均方根误差,F1break中断分类F1分数,WER词错率。
主观评价指标:MOS平均意见得分



消融实验:

五、结论
提出新的韵律感知TTS模型,在不需要韵律标签的情况下增强停顿和语调,实现了对停顿和语调的强大、精确和细粒度的控制。
六、对齐思考
- 在唇语到语音合成任务中,视觉信息和语音的停顿之间存在天然的对应关系,加入语音停顿可以改善合成语音的韵律。
- 对基频的处理有参考价值