三秒语音就能克隆自己的声音 VALL-E-X 使用教程

仓库部署

安装命令（python3.10.0）

git clone https://github.com/Plachtaa/VALL-E-X.git
cd VALL-E-X
pip install -r requirements.txt

启动命令

python -X utf-8 launch-ui.py

运行后会自动下载模型文件

2024-06-23T02:35:35.png

这里可能需要科x上w，不然下载会报错。也可以根据readme的提示手动下载checkpoint文件

启动后的界面

2024-06-23T05:19:54.png

序号1上传自己录制的音频，序号2起一个名称，点击make开始克隆

2024-06-23T05:22:16.png

克隆完成后，按下图操作，输入朗读文本，点击生成

2024-06-23T05:24:50.png

默认是用cpu，建议开启显卡加速使用gpu提升速度

先卸载原来的torch

pip uninstall torch torchvision torchaudio

重新安装，cu120表示cuda的版本

pip install torch torchvision torchaudio index-url https://download.pytorch.org/whl/cu121

windows查看cuda版本命令：nvcc --version

重新运行

python -X utf-8 launch-ui.py

现在就可以使用显卡加速了

2024-06-23T05:48:47.png

2024-06-23T05:48:23.png

发表评论