刚下载了元宝,发现可以自定义朗读的音色。我试了一下这个功能,非常便捷,只需要照着念一句话就可以。训练的速度很快,效果也是蛮接近原声,连语速也训练进去了。
以前用过GPT-SoVITS,V2的时候为了保证效果,我准备的音源一般都接近5分钟,对齐文本加训练差不多需要一个小时才行,否则轮数不够会带有一些日语口音。GPT-SoVITS也支持zero shot,和元宝这个类似,传一句话上去就可以。而zero shot的效果在V3之后就更好了。
用元宝克隆完自己的声音后,顺带开启了“回答问题后自动朗读”的功能,声音克隆确实蛮像,但听着自己的声音来朗读AI生成的文本确实有些太怪了。于是我让管理员也念了一句,重新克隆了一份音色。
测试效果还不错。只不过不知道为什么脸有点疼。