← 返回首页

克隆声音的怪诞与脸疼之谜

发布时间: 2026-01-26 10:39(北京时间)

摘要: 作者对比了元宝与GPT-SoVITS在声音克隆技术上的便捷性与效果,从训练时间、音源要求到zero shot功能,突出了技术进步带来的效率提升。随后描述了使用克隆声音朗读AI生成文本时的怪异感受,并提及脸疼这一生理反应,整体语调冷静而略带反思。

标签: 声音克隆, 技术对比, AI应用, 怪异体验, 生理反应, 冷静, 反思

字数: 336

原文链接: /7402396589/QoSk90rG7

刚下载了元宝,发现可以自定义朗读的音色。我试了一下这个功能,非常便捷,只需要照着念一句话就可以。训练的速度很快,效果也是蛮接近原声,连语速也训练进去了。

以前用过GPT-SoVITS,V2的时候为了保证效果,我准备的音源一般都接近5分钟,对齐文本加训练差不多需要一个小时才行,否则轮数不够会带有一些日语口音。GPT-SoVITS也支持zero shot,和元宝这个类似,传一句话上去就可以。而zero shot的效果在V3之后就更好了。

用元宝克隆完自己的声音后,顺带开启了“回答问题后自动朗读”的功能,声音克隆确实蛮像,但听着自己的声音来朗读AI生成的文本确实有些太怪了。于是我让管理员也念了一句,重新克隆了一份音色。

测试效果还不错。只不过不知道为什么脸有点疼。