音色AI克隆GPT-SoVITS-v2-240821

TTS(Text-To-Speech)这是一种文字转语音的语音合成。类似的还有SVC(歌声转换)、SVS(歌声合成)等。目前GPT-SoVITS只有TTS功能,也就是不能唱歌。

GPT-SoVITS-V1实现了:

由参考音频的情感、音色、语速控制合成音频的情感、音色、语速

可以少量语音微调训练,也可不训练直接推理

可以跨语种生成,即参考音频(训练集)和推理文本的语种为不同语种

GPT-SoVITS-V2新增特点:

对低音质参考音频合成出来音质更好

底模训练集增加到5k小时,zero shot性能更好音色更像,所需数据集更少

增加韩粤两种语言,中日英韩粤5个语种均可跨语种合成

更好的文本前端:持续迭代更新。V2中英文加入多音字优化。

教程:https://www.yuque.com/baicaigongchang1145haoyuangong/ib3g1e

图片[1]-音色AI克隆GPT-SoVITS-v2-240821-YOHO分享社
© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容