仓库部署

仓库地址:https://github.com/Plachtaa/VALL-E-X

安装命令(python3.10.0)

git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt

启动命令

python -X utf-8 launch-ui.py

运行后会自动下载模型文件

2024-06-23T02:35:35.png

这里可能需要科x上w,不然下载会报错。也可以根据readme的提示手动下载checkpoint文件

启动后的界面

2024-06-23T05:19:54.png

克隆声音

序号1上传自己录制的音频,序号2起一个名称,点击make开始克隆

2024-06-23T05:22:16.png

克隆完成后,按下图操作,输入朗读文本,点击生成

2024-06-23T05:24:50.png

显卡加速

默认是用cpu,建议开启显卡加速使用gpu提升速度

先卸载原来的torch

pip uninstall torch torchvision torchaudio

重新安装,cu120表示cuda的版本

pip install torch torchvision torchaudio index-url https://download.pytorch.org/whl/cu121
windows查看cuda版本命令:nvcc --version

重新运行

python -X utf-8 launch-ui.py

现在就可以使用显卡加速了

声音处理

推荐几个声音处理工具

背景音分离:https://github.com/Anjok07/ultimatevocalremovergui
windows下载https://github.com/Anjok07/ultimatevocalremovergui/releases/download/v5.6/UVR_v5.6.0_setup.exe

2024-06-23T05:48:47.png

声音切片工具:https://github.com/flutydeer/audio-slicer
windows下载https://github.com/flutydeer/audio-slicer/releases

2024-06-23T05:48:23.png

参考

发表评论