Step-Audio-TTS-3B:突破传统TTS边界,会说唱能哼唱的开源语音模型
导语
2025年语音合成领域迎来重大突破——阶跃星辰(StepFun-AI)开源的Step-Audio-TTS-3B模型,以1.17%的中文字符错误率(CER)刷新SEED TTS Eval基准,成为业界首个支持RAP和哼唱的商用级TTS模型。这款基于35亿参数构建的双码本架构模型,正通过LLM-Chat范式重塑语音交互的技术边界。
行业现状:从工具化到智能化的跨越
IDC最新报告显示,2025年中国人工智能语音市场规模预计达387亿元,同比增长20.5%,其中开源技术渗透率已突破40%。传统TTS系统长期受限于人工采集数据成本高、情感表达单一等问题,而Step-Audio-TTS-3B通过生成式数据引擎,利用1300亿参数多模态模型自动生成高质量音频数据,彻底摆脱了对人工录制数据的依赖。

如上图所示,黑色背景上的蓝色StepFun品牌标志,代表着阶跃星辰在开源语音交互领域的技术主张。这一品牌形象背后,是其通过"大模型生成数据→小模型落地应用"的创新模式,将千亿级模型的智能压缩至3B参数规模的技术实力。
核心亮点:四大技术突破重新定义TTS能力
1. 精度与自然度的双重突破
在SEED TTS Eval benchmark中,Step-Audio-TTS-3B展现出显著优势:
- 中文CER低至1.17%,比GLM-4-Voice(2.19%)降低46.5%
- 英文WER达到2.0%,超越CosyVoice 2-S(2.38%)
- 支持中文(含粤语、四川话)、英文、日语等多语言合成
2. 业界首创的音乐化语音生成
该模型突破性实现:
- RAP节奏控制:通过文本标记(如"(RAP)")生成符合节拍的说唱语音
- 哼唱合成(Humming):专用声码器支持无歌词旋律生成
- 情感动态调节:可通过指令控制喜悦、悲伤等7种基础情绪
3. 双码本架构的技术革新
采用语言标记(16.7Hz, 1024码本)+语义标记(25Hz, 4096码本)的双轨设计:
- 语言标记保障内容一致性(CER 2.19% vs CosyVoice 2.86%)
- 语义标记提升音频自然度(SS指标0.784)
- 2:3交错合并机制实现14倍文本压缩比,优化长对话上下文管理
4. 高效部署与生态兼容
- 最低8G显存即可运行,支持消费级GPU推理
- 提供完整ONNX格式模型,兼容工业级部署流程
- 开源仓库包含推理代码、预训练权重及微调工具链

从图中可以看出,StepAudio在语音交互的9个核心维度(角色扮演、逻辑推理、多语言支持等)全面领先GLM-4-Voice和Qwen2-Audio。尤其在"语音指令跟随"和"情感表达"维度,因支持RAP和动态情感调节而获得显著优势。
行业影响:开启语音交互3.0时代
内容创作领域
- 有声小说:实现角色语音克隆+情感朗读,制作效率提升300%
- 音乐创作:非专业用户可通过文本生成原创哼唱旋律
- 广告制作:5分钟内完成多语言、多风格的语音广告片
智能交互场景
- 智能客服:方言支持覆盖90%以上的中国方言使用人群
- 车载系统:通过情感语音降低驾驶疲劳感,实验显示警觉度提升18%
- 教育领域:支持粤语/四川话等方言教学,扩大偏远地区覆盖
技术生态变革
该模型的开源将加速:
- 合成数据生成标准化:降低语音模型训练的数据门槛
- 多模态交互融合:为"语音-视觉-文本"协同系统提供基础组件
- 边缘端智能普及:轻量化设计推动TTS能力向物联网设备渗透
未来展望:从"能说"到"会聊"的进化
随着Step-Audio-TTS-3B的开源,语音合成正从单纯的"文本转语音工具"向"智能交互主体"进化。下一步技术突破可能聚焦于:
- 情感-语义联动:根据对话内容自动切换情感基调
- 多模态输入融合:结合视觉信息优化语音表达
- 个性化风格迁移:实现特定说话人的语气、口头禅模拟
目前项目已在Hugging Face累计获得190个收藏,社区开发者已基于该模型衍生出方言教学、有声漫画创作等创新应用。对于企业用户,建议重点关注其在客服机器人、智能硬件等场景的落地潜力;开发者可通过8G显存的消费级GPU即可体验完整功能,开启语音交互创新之旅。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00