RVC模型训练

前言

最近想自己训练个模型在和别人语音的时候用,于是了解到了RVC这个项目


Retrieval-based-Voice-Conversion-WebUI
https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI


它可以实现人声模型的训练和实时推理

数据集准备

Q10:需要多少训练集时长

  • 推荐10min至50min

  • 保证音质高底噪低的情况下,如果有个人特色的音色统一,则多多益善

  • 高水平的训练集(精简+音色有特色),5min至10min也是ok的,仓库作者本人就经常这么玩

  • 也有人拿1min至2min的数据来训练并且训练成功的,但是成功经验是其他人不可复现的,不太具备参考价值。这要求训练集音色特色非常明显(比如说高频气声较明显的萝莉少女音),且音质高;

  • 1min以下时长数据目前没见有人尝试(成功)过。不建议进行这种鬼畜行为。

根据官方说法,我们大概需要准备15分钟左右的干声

我训练的是普拉娜的模型,音频数据主要来自游戏解包还有阿罗普拉频道,关于游戏解包数据我推荐使用这个项目:


Blue Archive Asset Downloader
https://github.com/ZM-Kimu/Blue-Archive-Asset-Downloader


游戏解包音频可以直接用,视频提取的音轨还要做处理


一般音频处理

首先打开webui,在RVC的根目录下打开go-web.bat

goweb

转到伴奏人声分离&去混响&去回声选项卡

伴奏人声分离&去混响&去回声

把要处理的文件放在一个文件夹内,并在输入待处理音频文件夹路径里输入目录的路径,导出格式建议选wav,因为之后训练要用wav格式的文件
模型的选取可以参考作者的说明,我的建议是

转换后的文件默认再RVC目录下的opt目录内
将所有的训练音频整合到同一个文件夹内


模型训练

Step 1&2

首先是基本的设置

step1&2

其余全部默认即可

Step 3

step3

训练设置部分:

一般保持默认即可
epoch在20附近比较合适

一键训练

1
2
3
4
5
6
7
8
9
10
11
12
13
step3a:正在训练模型
训练结束, 您可查看控制台训练日志或实验文件夹下的train.log
(46248, 768),1185
(46248, 768),1185
training
(46248, 768),1185
training
adding
(46248, 768),1185
training
adding
成功构建索引,added_IVF1185_Flat_nprobe_1_mi-test_v2.index
全流程结束!

更多问题可以参考官方wiki中的的常见问题解答

训练完成后的文件

⚠️注意,logs/<实验名称>下的pth文件并不适用于推理!!!


模型使用

1.WebUI

模型推理选项卡中刷新音色就可以看到刚刚训练好的模型,选择音色

reasoning

生成实例

翻唱

Feel my soul
寺泽百花


交谈


2.实时语音转换

使用RVC目录下的go-realtime-gui.bat即可打开实时语音转换

安装虚拟声卡

首先我们需要安装虚拟声卡,我用的是voicemeeter


Voicemeeter
https://voicemeeter.com


voicemeeter

打开后:

在go-realtime-gui内

go-realtime-gui

其他设置部分:

点击开始音频转换即可看到Voicemeeter里面虚拟通道有输入了

如何在软件内使用

这里以Pr为例,在音频硬件首选项中选择输入音频设备为Voicemeeter Out Bn
n为正整数

⚠️ 不要选择带A的,那些是物理输出

pr


至此就全部完成啦 ヾ(≧▽≦*)o

cover

封面:sensei👀
pid: 115447576
artist: monthmio

知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议

Next Post

Python脚本打包笔记