202410论文研读-Uni-Dubbing: Zero-Shot Speech Synthesis from Visual Articulation

作者:Lei Songju,Cheng Xize,Hu Jianqiao等

单位:南京航空航天大学,浙江大学,华为云等

来源:ACL 2024

一、主要内容

针对视觉语音处理任务中缺乏视频语音配对的数据的问题,提出冻结视频特征提取模块和编码器模块,只用音频数据训练解码器模块,来促进零镜头泛化,有效实现跨模态和跨语言的翻译。

  1. 在full-shot的唇语语音转换任务中,结合AV-HuBERT的编码器和Hifi-Codec,用压缩标记做中间特征,实现高保真的唇语语音转换。
  2. 在zero-shot的视觉语音翻译任务中,用多语言HuBERT提取的语义标记做中间特征,冻结预训练的AV-HuBERT权重,只用语音数据微调解码器,验证了跨语言迁移能力。

二、方法

三、实验结果

  1. 唇语语音转换任务

2. 跨语言翻译任务

四、总结和思考

压缩标记和语义标记相比能包含更多声学信息,摆脱在唇语语音转换任务中对参考说话人嵌入的依赖。只用音频数据微调解码器模块,减少了对多模态数据集的依赖,提高在未知说话人上的泛化性。