小米开源突破性语音大模型 Xiaomi-MiMo-Audio，语音AI迈入少样本泛化新纪元

2026-02-07 05:17:30作者：苗圣禹Peter

9月19日，科技巨头小米正式对外发布了其在人工智能领域的重磅成果——开源首个原生端到端语音大模型Xiaomi-MiMo-Audio。该模型的问世，标志着在语音识别与生成领域首次成功实现了基于In-Context Learning（ICL，上下文学习）的少样本泛化能力，为语音人工智能的发展掀开了崭新的一页。

回顾语音大模型的发展历程，我们不得不提及五年前GPT-3的横空出世。当时，GPT-3通过自回归语言模型结合大规模无标注数据的训练方式，首次让人工智能展现出了令人惊叹的上下文学习能力，这在自然语言处理领域引发了一场革命。然而，在语音这一同样至关重要的领域，现有的大模型却长期受困于一个严峻的瓶颈——对大规模标注数据的严重依赖。这种依赖使得这些模型在面对新的任务场景时，往往难以快速适应并达到类人智能的水平，极大地限制了语音AI的应用范围和灵活性。

而小米此次推出的Xiaomi-MiMo-Audio模型，则成功打破了这一制约语音大模型发展的关键瓶颈。据小米官方介绍，该模型的研发基于创新的预训练架构，并依托于上亿小时的海量训练数据。这使得Xiaomi-MiMo-Audio在多个关键维度上都实现了显著的能力提升，尤其在智商、情商、表现力以及安全性等方面的跨模态对齐能力上，取得了突破性进展。更为重要的是，该模型在语音交互的自然度、情感表达的丰富性以及对不同交互场景的适配能力方面，已经呈现出令人瞩目的拟人化水准，使得人机语音交互体验更加流畅、自然和富有情感。

Xiaomi-MiMo-Audio模型之所以能够取得如此显著的成就，源于其一系列关键的技术创新点。首先，该模型首次通过实践证明，当将语音无损压缩预训练的规模（Scaling）提升至1亿小时级别时，模型能够“涌现”出强大的跨任务泛化性，具体表现为优异的Few-Shot Learning（少样本学习）能力。这意味着模型在接触少量新任务示例后，便能快速掌握并执行该任务，极大地降低了对特定任务标注数据的需求。

其次，Xiaomi-MiMo-Audio模型还首次明确了语音生成式预训练的目标和定义。这不仅为语音大模型的研发提供了清晰的理论指引，更重要的是，小米还将一套完整的语音预训练方案进行了开源。该方案内容丰富，涵盖了用于语音数据处理的无损压缩Tokenizer、专为语音任务设计的全新模型结构、高效的训练方法以及全面的评测体系。这一系列开源成果，无疑将为整个语音AI社区的发展提供宝贵的技术支持和推动力量。

为了促进该模型的广泛应用和进一步的技术迭代，小米已采取了积极的开源措施。目前，小米已经在Huggingface这一全球知名的开源AI平台上，开源了Xiaomi-MiMo-Audio模型的预训练版本和指令微调版本。与此同时，在另一个重要的开源代码托管平台Github上，小米也开源了该模型的Tokenizer模型。据了解，此次开源的Xiaomi-MiMo-Audio模型参数量达到了12亿（1.2B），它基于当前主流的Transformer架构构建而成，具备强大的特征提取和序列建模能力。该模型支持多种核心语音任务，包括音频重建任务和音频转文本（语音识别）任务，展现出了良好的多功能性和应用潜力。开发者可以通过访问仓库地址https://gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base来获取相关资源。

小米此次开源Xiaomi-MiMo-Audio大模型，不仅是其在人工智能领域技术实力的一次重要展示，更为整个语音AI行业的发展注入了新的活力。通过开源，小米将先进的技术成果分享给全球的开发者和研究机构，这有望加速语音大模型技术的创新步伐，推动更多基于该模型的应用场景落地，例如更智能的语音助手、更自然的人机交互界面、更高效的语音内容创作工具以及更普惠的无障碍沟通解决方案等。可以预见，随着Xiaomi-MiMo-Audio模型的开源和推广，语音人工智能的应用边界将得到极大的拓展，人机语音交互的未来将更加值得期待。

MiMo-Audio-7B-Base

项目地址：https://gitcode.com/hf_mirrors/XiaomiMiMo/MiMo-Audio-7B-Base

登录后查看全文