(源码)端到端的声音克隆项目(对GPT-SoVITS工程化)|电子爱好者

admin管理员组
文章数量:1588262

端到端的声音克隆：即输入原音频(1分钟就可以，时间越长越好)和结果输出的音频命名，执行相应脚本，等待程序执行完成，即可得到克隆结果和模型。(默认中英混合训练，中英混合推理，中英混合参考文本)

项目1：声音克隆的训练一体化整合项目以及API。

下载链接：https://pan.quark/s/395bf4342d4f

(虚拟环境包脚本链接：https://pan.quark/s/bf2511f7b1fc，虚拟环境包地址(有些包需要手动调整)：请将虚拟环境放在绝对路径E:\envs\neuralangelo中https://pan.quark/s/6d6ddf8e3373

项目2：声音克隆的推理一体化整合项目以及API。

下载链接：https://pan.quark/s/5333556cdadf

项目1：项目简介

1.该项目是本人基于GPT-SoVITS做的工程化，为什么用GPT-SoVITS？因为经过调研，目前开源质量最好的声音克隆项目就是GPT-SoVITS。1分钟的音频，训练生成结果大概5-10分钟。
2.首先温馨提醒：该项目前提是需要会配置深度学习的虚拟环境(关键包的版本我会在后面声明，未声明就是正常安装就行)，因为本人不是专业做教程的，目的是将技术打通，自己使用的同时共享给大家一起使用，在修改项目的过程中，可能没有将项目整理的很干净，有些多余文件，但没关系他们不会影响项目的执行，由于以上原因可能不适合纯小白。
3.使用说明：该项目以及产品2下载解压，都要统一放在E:\project下，再配置好环境，即可成功。因为在测试过程中，有些流程对相对路径会报错，所以需要用到绝对路径。主目录是：E:\project\GPT-SoVITS-main\打包好\GPT-SoVITS
4.硬件说明：本人使用window11系统，单卡显卡4070ti，12G显存，64G内存进行测试并修改的。故项目里面的相关设置都是基于单卡的，代码的相关配置已经写死了，如果你想用多卡，可能需要自己调整。如果只是换显卡型号，不是多卡的话，就没问题，爆显存就调低两次训练的模型的batch_size即可。
5.软件说明：需要用到VPN。本项目是先跑通官方GPT-SoVITS，再进行修改的，所有官方需要下载的文件，本项目都有。第一次部署项目时，需要通过网络下载音频预处理的相关模型到C盘(官方最近更新采用在线下载的方式)，如：ASR等。如果内网下载缓慢，就尝试开VPN。
6.环境说明：尽量按照给的包版本来安装，没有的就默认。cuda11.8，torch==2.0.1
7.修改说明：

a：将原版的半精度改成False，在主目录的config.py文件中,不然训练会报错

b：切割音频时长参数-24

c:项目一次一个进程，不支持多路。故官方模型存放的目录每次使用都会被刷新，即新生成的模型覆盖旧的模型。但历史模型和参考音频都存放在output

d：E:\project\GPT-SoVITS-main\打包好\GPT-SoVITS\tools\asr\models中不能按原作者放入ASR魔塔模型文件，模型文件换成自动网络下载到了C:\Users\Administrator\.cache\modelscope\hub\iic中

e：原onnxruntime换成onnxruntime-gpu，UVR5才能使用onnx_dereverb_By_FoxJoy显卡推理

f：输入音频限制oss库链接，如果想本地上传删掉end_to_end.py的128行，download_file()，将输入写入“.\output\source”即可。

g：项目流程

（1）UVR5(python)，音频预处理。

模型使用步骤：分离伴奏HP5_only_main_vocal->去和声onnx_dereverb_By_FoxJoy-VR(后来取消了，原因是用GPU 推理也很慢，占用了整个推理时间的30%)->去混响/去延迟DeEcho-Aggressive。

转换存储过程为了加快速度，使用了mp3格式，比wav大小小10倍（即速度快很多），但是质量有所下降了（目前使用的mp3）

（2）语音切分end_to_end.py。def slice(audio)。训练batch_size==18极限

（3）ASR处理end_to_end.py。def asr(audio)

（4）1A训练格式化工具 def GPT_SoVITS_1A(inp_text,inp_wav_dir)

（5）1B微调end_to_end.py def GPT_SoVITS_1B_step1()训练batch_size==18极限 def GPT_SoVITS_1B_step2(batch_size==21极限)

（6）1C推理end_to_end.py def inference()

8.脚本说明：
（1）核心脚本为end_to_end.py,集成了训练过程中的每个流程。输入是原音频和结果命名。输出是克隆音频的demo。其次将模型文件保存再output文件夹中。
（2）api.py

将ip改为本机ip

接口文档件附件1，生成的内容做成了另一个回调接口，用户使用时直接接到参数就行，可以不进行回调直接获取结果。
链接：https://pan.quark/s/f1a42572d2e4

9.可能出现错误的说明：

（1）nltk_data错误解决办法：

https://github/RVC-Boss/GPT-SoVITS/issues/848

（2）路径错误：

注意绝对路径以及导包的绝对路径,UVR5的输入音频一定是绝对路径，这里已经改过

（3）训练的batch_size不要过高(建议15以内)，否则会出现保持不了模型的问题

（4）ffmeg的包可能要uninstall，再重装相应版本

项目2：声音克隆的推理模块单独抽离，选择声音训练的历史模型文件，进行一键推理。前提是基于产品1的部署好。

1.根目录说明：同项目1相同，将项目放在E:\project下
2.脚本说明：
（1）process.py，输入是模型名称(E:\project\GPT-SoVITS-main\打包好\GPT-SoVITS\output\SOVITS_models)，需要克隆的文字，结果命名。输出是克隆的结果音频
（2）api.py
将ip改为本机ip
接口文档件附件2，生成的内容做成了另一个回调接口，用户使用可以不进行回调直接获取结果。链接：https://pan.quark/s/4606f23229fe

（VX：jiang_lay，备注来意）

本文标签：源码端到声音项目工程

版权声明：本文标题：(源码)端到端的声音克隆项目(对GPT-SoVITS工程化) 内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://m.elefans.com/dianzi/1728038548a1143189.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

xp系统

电子爱好者 - 最新技术资讯及电子产品介绍！

(源码)端到端的声音克隆项目(对GPT-SoVITS工程化)

项目1：项目简介

项目2：声音克隆的推理模块单独抽离，选择声音训练的历史模型文件，进行一键推理。前提是基于产品1的部署好。

更多相关文章

【短视频音乐解析源码】在线解析抖音短视频音乐BGM源码+解析后自动播放mp3

Python基于Django在线音乐播放网站设计-计算机毕业源码设计

计算机无法连接声音怎么办,电脑耳机没声音怎么设置|耳机插电脑没有声音解决方法...

win11音响插电脑没声音怎么解决 win11电脑插音响没有声音怎么办

电脑没声音解决方法（重启声卡设置升级声卡驱动）

【源码+论文】springboot视频网站系统的设计与实现

【网站项目】基于SSM的276大学学生成长系统

7000个源码批量下载---复制来的

bootstrap 提供的一套前端自动在线代码生成器，对于不在乎前端页面的项目算是“神器”了

最新朋友圈转发截图生成装逼工具源码+实测可用

uniapp仿网易云音乐项目(发布小程序、H5和安卓App)

友源社区APP论坛源码+网站源码

小说APP网站源码运营版+在线采集

android 广播 源码,广播电台APP源代码 电台APP源代码 播客APP源代码 Android源代码...

uni-app项目搭建及运行

linux常用命令和部署项目命令

odoo13搭建-odoo13源码在windows系统的搭建详细过程

java web删除文件_java web项目实现上传文件的回收站功能

【Anaconda3】笔记内容008：详解Anaconda3的安装、Conda虚拟环境创建和其他项目环境的布置

Github上关于iOS的各种开源项目集合（强烈建议大家收藏，查看，总有一款你需要）

发表评论

推荐文章

计算机找网络共享盘快捷键,电脑共享快捷键不见了怎么办

时光倒流，Win11带你重温Win10的美好岁月

看上去很美——关于SaaS的八大误区

Linux中NGINX常用命令

Pycharm 软件的安装（win10 &amp; win7）

热门文章

为何骂百度的人那么多

解决Intel AC 9462无线网卡Linux驱动问题

加载网卡驱动程序到wim 里

在线Cron表达式生成器，定时任务表达式生成器

搭建sqlsugar代码生成器

Photoshop设计时尚的个人作品网页…

Linux 常用命令(sudo版)

linux无法将文件移入回收站,linux中使用rm命令将文件移到回收站的方法

HTMLCSSJS编码规范

python线程

最新文章

不用U盘，用一台好电脑给另一个电脑重装windows10

U大师U盘装系统——安装原版Win7系统教程（V2.0版）

U深度U盘安装win7系统教程

双系统装完只能u盘启动_U盘启动盘如何安装Win7+Win8双系统史上最详细教程

强力删除流氓软件_流氓软件那些事之三 ——关起门来打流氓

原xp系统电脑重装win732位

微星笔记本u启动安装win10系统

LG Ultra PC 2022 锐龙版笔记本重装win7系统教程

u启动linux安装教程,u启动制作linux安装系统教程

Docker我是真的全(没骗人[三万字巨详细])--Docker虚拟机安装部署及常规操作

电脑装两个硬盘在计算机只显示一个,电脑有两个硬盘，如何去掉机械硬盘中的那套系统？...

重装系统后，plsql连接oracle方法

研华工控机linux改win7,windows7上不了网研华工控机怎么设置u盘启动_研华工控机U盘引导方法...

ultraos win10启动盘_UltraISO制作U盘启动安装MSDN原版Win10系统教程 - SDN系统库

分享阿里HR熬夜整理76道软件测试常见面试题

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

android 广播源码,广播电台APP源代码电台APP源代码播客APP源代码 Android源代码...

Pycharm 软件的安装（win10 & win7）

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载