Step-Audio-TTS-3B：突破传统TTS边界，会说唱能哼唱的开源语音模型

2026-02-05 04:00:46作者：邓越浪Henry

导语

2025年语音合成领域迎来重大突破——阶跃星辰（StepFun-AI）开源的Step-Audio-TTS-3B模型，以1.17%的中文字符错误率（CER）刷新SEED TTS Eval基准，成为业界首个支持RAP和哼唱的商用级TTS模型。这款基于35亿参数构建的双码本架构模型，正通过LLM-Chat范式重塑语音交互的技术边界。

行业现状：从工具化到智能化的跨越

IDC最新报告显示，2025年中国人工智能语音市场规模预计达387亿元，同比增长20.5%，其中开源技术渗透率已突破40%。传统TTS系统长期受限于人工采集数据成本高、情感表达单一等问题，而Step-Audio-TTS-3B通过生成式数据引擎，利用1300亿参数多模态模型自动生成高质量音频数据，彻底摆脱了对人工录制数据的依赖。

StepFun品牌标志

如上图所示，黑色背景上的蓝色StepFun品牌标志，代表着阶跃星辰在开源语音交互领域的技术主张。这一品牌形象背后，是其通过"大模型生成数据→小模型落地应用"的创新模式，将千亿级模型的智能压缩至3B参数规模的技术实力。

核心亮点：四大技术突破重新定义TTS能力

1. 精度与自然度的双重突破

在SEED TTS Eval benchmark中，Step-Audio-TTS-3B展现出显著优势：

中文CER低至1.17%，比GLM-4-Voice（2.19%）降低46.5%
英文WER达到2.0%，超越CosyVoice 2-S（2.38%）
支持中文（含粤语、四川话）、英文、日语等多语言合成

2. 业界首创的音乐化语音生成

该模型突破性实现：

RAP节奏控制：通过文本标记（如"(RAP)"）生成符合节拍的说唱语音
哼唱合成（Humming）：专用声码器支持无歌词旋律生成
情感动态调节：可通过指令控制喜悦、悲伤等7种基础情绪

3. 双码本架构的技术革新

采用语言标记（16.7Hz, 1024码本）+语义标记（25Hz, 4096码本）的双轨设计：

语言标记保障内容一致性（CER 2.19% vs CosyVoice 2.86%）
语义标记提升音频自然度（SS指标0.784）
2:3交错合并机制实现14倍文本压缩比，优化长对话上下文管理

4. 高效部署与生态兼容

最低8G显存即可运行，支持消费级GPU推理
提供完整ONNX格式模型，兼容工业级部署流程
开源仓库包含推理代码、预训练权重及微调工具链

语音模型性能对比雷达图

从图中可以看出，StepAudio在语音交互的9个核心维度（角色扮演、逻辑推理、多语言支持等）全面领先GLM-4-Voice和Qwen2-Audio。尤其在"语音指令跟随"和"情感表达"维度，因支持RAP和动态情感调节而获得显著优势。

行业影响：开启语音交互3.0时代

内容创作领域

有声小说：实现角色语音克隆+情感朗读，制作效率提升300%
音乐创作：非专业用户可通过文本生成原创哼唱旋律
广告制作：5分钟内完成多语言、多风格的语音广告片

智能交互场景

智能客服：方言支持覆盖90%以上的中国方言使用人群
车载系统：通过情感语音降低驾驶疲劳感，实验显示警觉度提升18%
教育领域：支持粤语/四川话等方言教学，扩大偏远地区覆盖

技术生态变革

该模型的开源将加速：

合成数据生成标准化：降低语音模型训练的数据门槛
多模态交互融合：为"语音-视觉-文本"协同系统提供基础组件
边缘端智能普及：轻量化设计推动TTS能力向物联网设备渗透

未来展望：从"能说"到"会聊"的进化

随着Step-Audio-TTS-3B的开源，语音合成正从单纯的"文本转语音工具"向"智能交互主体"进化。下一步技术突破可能聚焦于：

情感-语义联动：根据对话内容自动切换情感基调
多模态输入融合：结合视觉信息优化语音表达
个性化风格迁移：实现特定说话人的语气、口头禅模拟

目前项目已在Hugging Face累计获得190个收藏，社区开发者已基于该模型衍生出方言教学、有声漫画创作等创新应用。对于企业用户，建议重点关注其在客服机器人、智能硬件等场景的落地潜力；开发者可通过8G显存的消费级GPU即可体验完整功能，开启语音交互创新之旅。

Step-Audio-TTS-3B

项目地址：https://gitcode.com/StepFun/Step-Audio-TTS-3B

登录后查看全文