作者:Lei Songju,Cheng Xize,Hu Jianqiao等
单位:南京航空航天大学,浙江大学,华为云等
来源:ACL 2024
一、主要内容
针对视觉语音处理任务中缺乏视频语音配对的数据的问题,提出冻结视频特征提取模块和编码器模块,只用音频数据训练解码器模块,来促进零镜头泛化,有效实现跨模态和跨语言的翻译。
- 在full-shot的唇语语音转换任务中,结合AV-HuBERT的编码器和Hifi-Codec,用压缩标记做中间特征,实现高保真的唇语语音转换。
- 在zero-shot的视觉语音翻译任务中,用多语言HuBERT提取的语义标记做中间特征,冻结预训练的AV-HuBERT权重,只用语音数据微调解码器,验证了跨语言迁移能力。
二、方法
三、实验结果
- 唇语语音转换任务
2. 跨语言翻译任务
四、总结和思考
压缩标记和语义标记相比能包含更多声学信息,摆脱在唇语语音转换任务中对参考说话人嵌入的依赖。只用音频数据微调解码器模块,减少了对多模态数据集的依赖,提高在未知说话人上的泛化性。