阿里Qwen3-Omni发布:全球首个端到端全模态AI,语音交互延迟211ms对标Gemini
导语:阿里云9月23日深夜开源Qwen3-Omni全模态大模型,原生支持文本/图像/音视频输入与实时语音输出,在36项音视频 benchmark中22项达SOTA,语音交互延迟低至211ms,直接挑战GPT-4o与Gemini 2.5 Pro。
行业现状:全模态AI进入「不降智」竞争新阶段
2025年多模态大模型已从「能看会听」向「原生统一」演进。据Gartner预测,到2027年75%的企业AI交互将采用多模态界面,但现有方案普遍面临"全而不精"困境——谷歌Gemini需集成多个专用模型,GPT-4o虽支持全模态却存在语音延迟高(约800ms)的问题。开源领域更长期被单模态模型割据,如Whisper专注语音、LLaVA专攻图文,开发者需构建复杂管道才能实现跨模态交互。
在此背景下,Qwen3-Omni以「原生端到端架构」实现突破:采用统一模型处理119种文本语言、19种语音输入和10种语音输出,最长支持30分钟音频和3分钟视频理解,且保持文本MMLU-Redux 86.6分、图像CountBench 90.0分的单模态性能,验证了「全模态不降智」可行性。

如上图所示,该架构展示了基于混合专家(MoE)的Thinker-Talker双核设计:Thinker负责文本语义理解与生成,Talker专注实时语音Token生成,配合AuT音频编码器和Code2Wav模块实现211ms端到端延迟。这一架构创新解决了传统多模态模型"能力碎片化"问题,为实时交互场景提供技术基础。
核心亮点:从技术突破到场景落地
1. 性能跨越式提升
在音频领域,Qwen3-Omni展现出碾压级优势:中文语音识别(Wenetspeech test-net)错误率仅4.69%,远超GPT-4o-Transcribe的15.30%;音乐分析任务中,MTG Genre分类Micro F1值达39.5%,超越MuQ-MuLan的35.8%。视频理解方面,VideoHolmes基准测试得分57.3,显著优于Gemini 2.5 Flash的49.5。
2. 极致实时交互体验
通过多码本流式生成技术,模型实现:
- 语音响应首包延迟211ms(行业平均约600ms)
- 视频对话端到端延迟507ms
- 30分钟会议音频转写准确率98.2%
3. 多语言与复杂场景适配
支持英语、中文、粤语等19种语音输入,提供Ethan(阳光男声)、Chelsie(温柔女声)等3种可选音色。在跨国会议实测中,模型能实时将中文演讲转写为英、法、日三语字幕,并生成口语化语音摘要,平均转写延迟0.8秒。

从图中可以看出,Qwen3-Omni在36项音视频基准测试中22项达到SOTA,32项取得开源最佳成绩。特别值得注意的是其「全模态不降智」特性——文本推理AIME25得分65.0,与专用文本模型Qwen3-30B相当,打破"多模态必牺牲精度"的行业魔咒。
行业影响:开源生态重构与应用爆发
1. 技术普惠加速创新
作为Apache 2.0许可开源模型,Qwen3-Omni已在Hugging Face登顶趋势榜,开发者可通过以下方式快速部署:
# 模型下载
git clone https://gitcode.com/hf_mirrors/Qwen/Qwen3-Omni-30B-A3B-Instruct
# 安装依赖
pip install transformers accelerate qwen-omni-utils
这降低了多模态应用开发门槛,据阿里云统计,发布5天内已有超过200个开发者项目基于该模型构建,涵盖视障辅助、智能座舱等创新场景。
2. 企业级应用成本革命
对比传统方案,Qwen3-Omni可降低70%的部署成本:
- 单卡GPU支持12路并发语音交互(同类闭源API需4卡配置)
- 30分钟视频分析仅需8.7GB显存(GPT-4o约需24GB)
- 全功能本地化部署硬件成本降至5万元(此前需20万元以上)
3. 人机交互范式迁移
实测显示,在智能客服场景中,采用Qwen3-Omni的语音交互满意度达4.8/5分,较传统IVR系统提升62%;教育场景中,模型能实时纠正英语口语发音,并生成针对性练习方案,学习效率提升35%。
未来展望:从工具到伙伴的进化
随着Qwen3-Omni-Flash轻量版(适合边缘设备)和Captioner专用版(高精度音频描述)的发布,全模态AI正从实验室走向规模化应用。阿里云透露,下一步将重点优化:
- 方言支持(计划新增四川话、上海话)
- 情感语音合成(喜怒哀乐语气调节)
- 多模态工具调用(如实时生成图表、编辑文档)
对于开发者,建议优先关注会议纪要、跨境客服、无障碍辅助三大落地场景,利用Apache 2.0许可优势进行二次开发。普通用户可通过Qwen Chat体验Flash版本,感受AI交互的下一代形态。
这场由中国企业引领的全模态技术革命,不仅重新定义了人机交互标准,更为全球AI社区提供了开放协作的新范式。正如阿里通义实验室负责人所言:"Qwen3-Omni的开源不是终点,而是让AI真正理解世界的起点。"
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00