内容概要

	摘要	返回

基于联合微调CLIP和Fastspeech2的盲文图像-语音生成

为提升视障人士的阅读效率，构建了一种适用于中文语言场景下的盲文图像-语音转换框架：CLIPViT-H/14-KNN-FastSpeech2。采取先独立预训练再联合微调的策略：首先，将中文CLIP和FastSpeech2文本转语音模型在公开数据集中分别预训练并验证其收敛性；然后，在此基础上利用盲文图像数据集进行联合微调。实验结果表明：模型在PER等指标上均有所提高，验证了模型在有限数据下仍具备合成高质量语音的能力以及联合训练策略的有效性。

(全文阅读请到中国期刊全文数据库)

读者园地

地址: 杭州市五常港路121号西溪创智中心四号楼807室《计算机时代》编辑部

邮编: 310012 电话: (0571)85118010 (0571)85119435 E-mail: Computer_era @ vip.163.com