Higgs-Audio部署指南：本地环境与云端服务的高效搭建方案

2026-01-29 11:31:25作者：宗隆裙

Higgs-Audio是一款由Boson AI开发的文本-音频基础模型，能够实现高质量的语音合成、语音克隆和多 speaker 对话生成等功能。本指南将帮助你快速在本地环境或云端服务中部署Higgs-Audio，让你轻松体验这款强大的音频生成工具。

为什么选择Higgs-Audio？

Higgs-Audio v2在情感表达和多语言支持方面表现卓越，在EmergentTTS-Eval评测中，其情感表达能力以75.7%的胜率超过GPT-4o-mini-tts，展现出强大的音频生成能力。

Higgs-Audio v2在情感表达能力上超越了多个主流TTS模型

Higgs-Audio的核心优势在于其创新的架构设计，包括语义编码器、音频编码器和双FFN结构，能够同时捕捉语义和声学特征，实现更自然、更富有表现力的音频生成。

Higgs-Audio v2架构图展示了文本和音频处理的完整流程

准备工作

在开始部署Higgs-Audio之前，请确保你的环境满足以下要求：

Python 3.10或更高版本
CUDA支持的NVIDIA GPU（推荐24GB以上显存）
至少50GB可用磁盘空间

本地环境部署步骤

1. 克隆代码仓库

首先，克隆Higgs-Audio的代码仓库到本地：

git clone https://gitcode.com/gh_mirrors/hi/higgs-audio
cd higgs-audio

2. 选择安装方式

Higgs-Audio提供多种安装方式，你可以根据自己的需求选择：

选项1：直接安装

pip install -r requirements.txt
pip install -e .

选项2：使用venv虚拟环境

python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .

选项3：使用conda环境

conda create -y --prefix ./conda_env --override-channels --strict-channel-priority --channel "conda-forge" "python==3.10.*"
conda activate ./conda_env
pip install -r requirements.txt
pip install -e .

选项4：使用uv（快速Python包管理器）

uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .

基础使用示例

1. 零样本语音生成

生成具有特定语音特征的音频：

python examples/serve_engine/run_hf_example.py zero_shot

2. 语音克隆

从参考音频中克隆语音：

python examples/serve_engine/run_hf_example.py voice_clone

3. 简单文本转语音

使用Python代码生成音频：

from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine
from boson_multimodal.data_types import ChatMLSample, Message

MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"

system_prompt = "Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"

messages = [
    Message(role="system", content=system_prompt),
    Message(role="user", content="Hello, this is a test of Higgs-Audio text-to-speech generation."),
]

serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device="cuda")
output = serve_engine.generate(
    chat_ml_sample=ChatMLSample(messages=messages),
    max_new_tokens=1024,
    temperature=0.3,
    top_p=0.95
)

# 保存生成的音频
import torchaudio
import torch
torchaudio.save("output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)

高级部署：使用vLLM提升性能

对于需要更高吞吐量的场景，Higgs-Audio提供了基于vLLM引擎的OpenAI兼容API服务器。具体部署方法请参考examples/vllm目录下的说明文档。

多 speaker 对话生成

Higgs-Audio支持多 speaker 对话生成，你可以使用以下命令生成对话音频：

# 自动分配语音
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav

# 指定参考语音
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav