克隆声音的怪诞与脸疼之谜

刚下载了元宝，发现可以自定义朗读的音色。我试了一下这个功能，非常便捷，只需要照着念一句话就可以。训练的速度很快，效果也是蛮接近原声，连语速也训练进去了。

以前用过GPT-SoVITS，V2的时候为了保证效果，我准备的音源一般都接近5分钟，对齐文本加训练差不多需要一个小时才行，否则轮数不够会带有一些日语口音。GPT-SoVITS也支持zero shot，和元宝这个类似，传一句话上去就可以。而zero shot的效果在V3之后就更好了。

用元宝克隆完自己的声音后，顺带开启了“回答问题后自动朗读”的功能，声音克隆确实蛮像，但听着自己的声音来朗读AI生成的文本确实有些太怪了。于是我让管理员也念了一句，重新克隆了一份音色。

测试效果还不错。只不过不知道为什么脸有点疼。