844 字

4 分钟

GPT-SoVITS 本地语音合成完整教程

详细记录GPT-SoVITS本地语音合成模型的部署与使用，涵盖环境配置、模型训练、API调用，以及在项目中的集成方法

2026-03-24

GPT-SoVITS

TTS

语音合成

AI +1

前言#

GPT-SoVITS是一款强大的本地语音合成项目，支持零样本声音克隆和少样本训练。本文记录完整的本地部署流程，帮你快速上手AI语音合成技术。

环境要求#

硬件#

显卡：NVIDIA GPU（建议6GB以上显存）
内存：16GB RAM
硬盘：30GB可用空间

软件#

Python 3.10+
CUDA 11.8 或 12.1
cuDNN

安装依赖#

创建虚拟环境#

1
conda create -n gptsovits python=3.10
2
conda activate gptsovits

安装PyTorch#

1
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

克隆项目#

1
git clone https://github.com/RVC-Boss/GPT-SoVITS.git
2
cd GPT-SoVITS

安装依赖#

1
pip install -r requirements.txt

预训练模型下载#

需要下载的模型#

模型	说明	大小
GPT-SoVITS模型	主模型	~1.5GB
HuggingFace模型	底模	~4GB
训练语料（可选）	参考音色	几百MB

下载地址#

模型存放#

1
GPT-SoVITS/
2
├── GPT_SoVITS/
3
│   └── pretrained_models/
4
│       ├── GPT-SoVITS/
5
│       └── huqubert/
6
└── SoVITS/
7
    └── pretrained_models/

推理使用#

启动WebUI#

1
python webui.py --port 9876 --colab

浏览器访问#

打开 http://localhost:9876

推理参数#

参数	说明	建议值
参考音频	克隆音色的源	5-30秒
文本内容	要合成的文字	避免超长
语速	合成语速	1.0正常
音调	音高调整	0正常

API服务#

启动API服务#

1
python API.py --port 9880

HTTP调用示例#

1
import requests
2

3
# 合成语音
4
url = "http://127.0.0.1:9880/tts"
5

6
data = {
7
    "text": "你好，欢迎使用GPT-SoVITS语音合成",
8
    "text_lang": "zh",
9
    "ref_audio_path": "path/to/reference.wav",
10
    "prompt_lang": "zh",
11
    "prompt_text": "这是一段参考音频的文字内容"
12
}
13

14
response = requests.post(url, json=data)
15

16
# 保存音频
17
with open("output.wav", "wb") as f:
18
    f.write(response.content)

返回格式#

1
{
2
  "code": 200,
3
  "message": "success",
4
  "data": {
5
    "audio": "base64编码的音频数据",
6
    "duration": 3.5
7
  }
8
}

训练自定义音色#

数据准备#

收集目标音色的音频（5-30分钟）
音频格式：16bit WAV，16kHz，单声道
命名规范：speaker_name_001.wav

音频预处理#

1
python 3_applyforcevocab.py \
2
  --input_path ./raw/ \
3
  --output_path ./processed/

启动训练#

1
# 训练SoVITS
2
python train_sovits.py \
3
  --data_path ./processed/ \
4
  --model_path ./output/sovits/
5

6
# 训练GPT
7
python train_gpt.py \
8
  --data_path ./processed/ \
9
  --model_path ./output/gpt/

训练参数#

参数	说明	建议值
batch_size	批量大小	显存允许尽量大
learning_rate	学习率	1e-4
epochs	训练轮数	10-20

与项目集成#

Python集成#

1
import subprocess
2
import base64
3
import os
4

5
class GPTSoVITSClient:
6
    def __init__(self, api_url="http://127.0.0.1:9880"):
7
        self.api_url = api_url
8

9
    def generate(self, text, ref_audio, ref_text):
10
        import requests
11
        with open(ref_audio, "rb") as f:
12
            ref_audio_b64 = base64.b64encode(f.read()).decode()
13

14
        data = {
15
            "text": text,
16
            "text_lang": "zh",
17
            "ref_audio_path": ref_audio,
18
            "prompt_lang": "zh",
19
            "prompt_text": ref_text
20
        }
21

22
        response = requests.post(self.api_url + "/tts", json=data)
23
        result = response.json()
24

25
        if result["code"] == 200:
26
            audio_b64 = result["data"]["audio"]
27
            audio_data = base64.b64decode(audio_b64)
28

29
            output_path = "temp_output.wav"
30
            with open(output_path, "wb") as f:
31
                f.write(audio_data)
32
            return output_path
33
        return None

游戏引擎集成#

在UE5中使用：

1
// 在OpenClaw或其他项目中调用API
2
void USoVITSManager::GenerateVoice(const FString& Text, const FString& RefAudio)
3
{
4
    TSharedRef<IHttpRequest> Request = FHttpModule::Get().CreateRequest();
5
    Request->SetURL("http://127.0.0.1:9880/tts");
6
    Request->SetVerb("POST");
7
    Request->SetHeader("Content-Type", "application/json");
8

9
    TArray<TSharedPtr<FJsonValue>> JsonArray;
10
    // ... 构建JSON
11
    Request->SetContentAsString(JsonString);
12

13
    Request->OnProcessRequestComplete().BindUObject(this, &USoVITSManager::OnResponse);
14
    Request->ProcessRequest();
15
}

常见问题#

Q: 显存不足？#

A: 降低batch_size，或使用量化模型。

Q: 合成声音不自然？#

A: 提供更清晰、时长适中的参考音频（10-20秒为佳）。

Q: 中文发音错误？#

A: 使用拼音或带声调的拼音输入。

Q: 如何提升推理速度？#

A: 使用TensorRT加速，或降低推理精度。

总结#

GPT-SoVITS核心要点：

本地部署 — 无需云服务，保护隐私
零样本克隆 — 5秒音频即可克隆
少样本训练 — 5-30分钟数据定制音色
API服务 — 方便项目集成
游戏应用 — NPC对话、语音播报

本地语音合成让AI应用更灵活可控。

参考资源#

🎉 恭喜！ 现在你掌握了GPT-SoVITS本地部署与使用！

GPT-SoVITS 本地语音合成完整教程

https://gzhblog.cn/posts/2026-03/2026-03-24-gpt-sovits-tts/

作者

384400

发布于

2026-03-24

许可协议

CC BY-NC-SA 4.0

这篇文章是否对你有帮助？

联系赞助

UE5 Mass集群系统详解 — 大规模人群模拟解决方案

OpenClaw 部署完整指南

写作概览

22 篇

文章

3.5万

总字数

2.9h

阅读时长

1,590

均字数

年度发文

2026