202501论文研读-ProsodyFM: Unsupervised Phrasing and Intonation Control for Intelligible Speech Synthesis

作者:He Xiangheng等

单位:Imperial College London

来源:AAAI 2025

一、主要内容

韵律对语音可理解性至关重要,目前模型在划分停顿和语调方面存在不足。ProsodyFM引入停顿编码器和语调编码器,有效改善韵律的停顿和语调方面,并站展现出卓越的泛化能力。

二、论文贡献

  • 提出ProsodyFM,能够合成自然停顿和语调的语音。
  • 为停顿标签和语调建模提供新的有效的解决方案。
  • 发布演示、代码和模型权重促进进一步研究。

三、方法

ProsodyFM旨在从参考语音中提取停顿和语调模式,调整这些模式并匹配目标文本,使用最优传输条件流匹配OT-CFM进行训练。ProsodyFM从原始文本中预测mel谱图,使用HifiGAN声码器转换为波形。

四、结果

数据集:LibriTTS

客观评价指标:RMSEF0对数尺度F0均方根误差,F1break中断分类F1分数,WER词错率。

主观评价指标:MOS平均意见得分

消融实验:

五、结论

提出新的韵律感知TTS模型,在不需要韵律标签的情况下增强停顿和语调,实现了对停顿和语调的强大、精确和细粒度的控制。

六、对齐思考

  • 在唇语到语音合成任务中,视觉信息和语音的停顿之间存在天然的对应关系,加入语音停顿可以改善合成语音的韵律。
  • 对基频的处理有参考价值