为提升视障人士的阅读效率,构建了一种适用于中文语言场景下的盲文图像-语音转换框架:CLIPViT-H/14-KNN-FastSpeech2。采取先独立预训练再联合微调的策略:首先,将中文CLIP和FastSpeech2文本转语音模型在公开数据集中分别预训练并验证其收敛性;然后,在此基础上利用盲文图像数据集进行联合微调。实验结果表明:模型在PER等指标上均有所提高,验证了模型在有限数据下仍具备合成高质量语音的能力以及联合训练策略的有效性。