Higgs-Audio部署指南:本地环境与云端服务的高效搭建方案
Higgs-Audio是一款由Boson AI开发的文本-音频基础模型,能够实现高质量的语音合成、语音克隆和多 speaker 对话生成等功能。本指南将帮助你快速在本地环境或云端服务中部署Higgs-Audio,让你轻松体验这款强大的音频生成工具。
为什么选择Higgs-Audio?
Higgs-Audio v2在情感表达和多语言支持方面表现卓越,在EmergentTTS-Eval评测中,其情感表达能力以75.7%的胜率超过GPT-4o-mini-tts,展现出强大的音频生成能力。
Higgs-Audio v2在情感表达能力上超越了多个主流TTS模型
Higgs-Audio的核心优势在于其创新的架构设计,包括语义编码器、音频编码器和双FFN结构,能够同时捕捉语义和声学特征,实现更自然、更富有表现力的音频生成。
Higgs-Audio v2架构图展示了文本和音频处理的完整流程
准备工作
在开始部署Higgs-Audio之前,请确保你的环境满足以下要求:
- Python 3.10或更高版本
- CUDA支持的NVIDIA GPU(推荐24GB以上显存)
- 至少50GB可用磁盘空间
本地环境部署步骤
1. 克隆代码仓库
首先,克隆Higgs-Audio的代码仓库到本地:
git clone https://gitcode.com/gh_mirrors/hi/higgs-audio
cd higgs-audio
2. 选择安装方式
Higgs-Audio提供多种安装方式,你可以根据自己的需求选择:
选项1:直接安装
pip install -r requirements.txt
pip install -e .
选项2:使用venv虚拟环境
python3 -m venv higgs_audio_env
source higgs_audio_env/bin/activate
pip install -r requirements.txt
pip install -e .
选项3:使用conda环境
conda create -y --prefix ./conda_env --override-channels --strict-channel-priority --channel "conda-forge" "python==3.10.*"
conda activate ./conda_env
pip install -r requirements.txt
pip install -e .
选项4:使用uv(快速Python包管理器)
uv venv --python 3.10
source .venv/bin/activate
uv pip install -r requirements.txt
uv pip install -e .
基础使用示例
1. 零样本语音生成
生成具有特定语音特征的音频:
python examples/serve_engine/run_hf_example.py zero_shot
2. 语音克隆
从参考音频中克隆语音:
python examples/serve_engine/run_hf_example.py voice_clone
3. 简单文本转语音
使用Python代码生成音频:
from boson_multimodal.serve.serve_engine import HiggsAudioServeEngine
from boson_multimodal.data_types import ChatMLSample, Message
MODEL_PATH = "bosonai/higgs-audio-v2-generation-3B-base"
AUDIO_TOKENIZER_PATH = "bosonai/higgs-audio-v2-tokenizer"
system_prompt = "Generate audio following instruction.\n\n<|scene_desc_start|>\nAudio is recorded from a quiet room.\n<|scene_desc_end|>"
messages = [
Message(role="system", content=system_prompt),
Message(role="user", content="Hello, this is a test of Higgs-Audio text-to-speech generation."),
]
serve_engine = HiggsAudioServeEngine(MODEL_PATH, AUDIO_TOKENIZER_PATH, device="cuda")
output = serve_engine.generate(
chat_ml_sample=ChatMLSample(messages=messages),
max_new_tokens=1024,
temperature=0.3,
top_p=0.95
)
# 保存生成的音频
import torchaudio
import torch
torchaudio.save("output.wav", torch.from_numpy(output.audio)[None, :], output.sampling_rate)
高级部署:使用vLLM提升性能
对于需要更高吞吐量的场景,Higgs-Audio提供了基于vLLM引擎的OpenAI兼容API服务器。具体部署方法请参考examples/vllm目录下的说明文档。
多 speaker 对话生成
Higgs-Audio支持多 speaker 对话生成,你可以使用以下命令生成对话音频:
# 自动分配语音
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--seed 12345 \
--out_path generation.wav
# 指定参考语音
python3 examples/generation.py \
--transcript examples/transcript/multi_speaker/en_argument.txt \
--ref_audio belinda,broom_salesman \
--ref_audio_in_system_message \
--chunk_method speaker \
--seed 12345 \
--out_path generation.wav
故障排除与常见问题
如果在部署或使用过程中遇到问题,请参考以下资源:
总结
通过本指南,你已经了解了如何在本地环境部署Higgs-Audio,并尝试了基本的音频生成功能。Higgs-Audio的强大之处在于其先进的架构设计和高质量的音频输出,无论是单 speaker 语音合成还是多 speaker 对话生成,都能满足你的需求。
Higgs-Audio tokenizer架构展示了语义和声学特征的处理流程
现在,你可以开始探索Higgs-Audio的更多高级功能,如语音克隆、情感控制等,创造出更加丰富和自然的音频内容。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00