Step-Audio-TTS-3B:突破传统TTS边界,会说唱能哼唱的开源语音模型
导语
2025年语音合成领域迎来重大突破——阶跃星辰(StepFun-AI)开源的Step-Audio-TTS-3B模型,以1.17%的中文字符错误率(CER)刷新SEED TTS Eval基准,成为业界首个支持RAP和哼唱的商用级TTS模型。这款基于35亿参数构建的双码本架构模型,正通过LLM-Chat范式重塑语音交互的技术边界。
行业现状:从工具化到智能化的跨越
IDC最新报告显示,2025年中国人工智能语音市场规模预计达387亿元,同比增长20.5%,其中开源技术渗透率已突破40%。传统TTS系统长期受限于人工采集数据成本高、情感表达单一等问题,而Step-Audio-TTS-3B通过生成式数据引擎,利用1300亿参数多模态模型自动生成高质量音频数据,彻底摆脱了对人工录制数据的依赖。

如上图所示,黑色背景上的蓝色StepFun品牌标志,代表着阶跃星辰在开源语音交互领域的技术主张。这一品牌形象背后,是其通过"大模型生成数据→小模型落地应用"的创新模式,将千亿级模型的智能压缩至3B参数规模的技术实力。
核心亮点:四大技术突破重新定义TTS能力
1. 精度与自然度的双重突破
在SEED TTS Eval benchmark中,Step-Audio-TTS-3B展现出显著优势:
- 中文CER低至1.17%,比GLM-4-Voice(2.19%)降低46.5%
- 英文WER达到2.0%,超越CosyVoice 2-S(2.38%)
- 支持中文(含粤语、四川话)、英文、日语等多语言合成
2. 业界首创的音乐化语音生成
该模型突破性实现:
- RAP节奏控制:通过文本标记(如"(RAP)")生成符合节拍的说唱语音
- 哼唱合成(Humming):专用声码器支持无歌词旋律生成
- 情感动态调节:可通过指令控制喜悦、悲伤等7种基础情绪
3. 双码本架构的技术革新
采用语言标记(16.7Hz, 1024码本)+语义标记(25Hz, 4096码本)的双轨设计:
- 语言标记保障内容一致性(CER 2.19% vs CosyVoice 2.86%)
- 语义标记提升音频自然度(SS指标0.784)
- 2:3交错合并机制实现14倍文本压缩比,优化长对话上下文管理
4. 高效部署与生态兼容
- 最低8G显存即可运行,支持消费级GPU推理
- 提供完整ONNX格式模型,兼容工业级部署流程
- 开源仓库包含推理代码、预训练权重及微调工具链

从图中可以看出,StepAudio在语音交互的9个核心维度(角色扮演、逻辑推理、多语言支持等)全面领先GLM-4-Voice和Qwen2-Audio。尤其在"语音指令跟随"和"情感表达"维度,因支持RAP和动态情感调节而获得显著优势。
行业影响:开启语音交互3.0时代
内容创作领域
- 有声小说:实现角色语音克隆+情感朗读,制作效率提升300%
- 音乐创作:非专业用户可通过文本生成原创哼唱旋律
- 广告制作:5分钟内完成多语言、多风格的语音广告片
智能交互场景
- 智能客服:方言支持覆盖90%以上的中国方言使用人群
- 车载系统:通过情感语音降低驾驶疲劳感,实验显示警觉度提升18%
- 教育领域:支持粤语/四川话等方言教学,扩大偏远地区覆盖
技术生态变革
该模型的开源将加速:
- 合成数据生成标准化:降低语音模型训练的数据门槛
- 多模态交互融合:为"语音-视觉-文本"协同系统提供基础组件
- 边缘端智能普及:轻量化设计推动TTS能力向物联网设备渗透
未来展望:从"能说"到"会聊"的进化
随着Step-Audio-TTS-3B的开源,语音合成正从单纯的"文本转语音工具"向"智能交互主体"进化。下一步技术突破可能聚焦于:
- 情感-语义联动:根据对话内容自动切换情感基调
- 多模态输入融合:结合视觉信息优化语音表达
- 个性化风格迁移:实现特定说话人的语气、口头禅模拟
目前项目已在Hugging Face累计获得190个收藏,社区开发者已基于该模型衍生出方言教学、有声漫画创作等创新应用。对于企业用户,建议重点关注其在客服机器人、智能硬件等场景的落地潜力;开发者可通过8G显存的消费级GPU即可体验完整功能,开启语音交互创新之旅。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0194
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0121
MiMo-V2.5-Pro-FP4-DFlashMiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型: FP4 量化骨干网络:对 MoE 专家采用 MXFP4 量化,同时保持模型其他部分的更高精度,在几乎无损质量的前提下,显著减小模型体积并降低内存带宽压力。 BF16 DFlash 草稿生成器:用于块扩散推测解码,每次前向传播可生成一整个块的 tokens,并让骨干网络一步完成验证。 两者协同作用,既降低了每参数的位宽,又减少了骨干网络前向传播的次数,而这两者正是万亿参数模型解码过程中的两大主要成本来源。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
AstrBot✨ 易上手的多平台 LLM 聊天机器人及开发框架 ✨ 平台支持 QQ、QQ频道、Telegram、微信、企微、飞书 | OpenAI、DeepSeek、Gemini、硅基流动、月之暗面、Ollama、OneAPI、Dify 等。附带 WebUI。Python05
handy-ollama动手学Ollama,CPU玩转大模型部署,在线阅读地址:https://datawhalechina.github.io/handy-ollama/Jupyter Notebook06