腾讯混元3D世界模型1.0震撼开源,重塑数字内容创作生态
7月27日,在2025世界人工智能大会腾讯论坛上,一项具有里程碑意义的技术成果正式亮相——腾讯混元3D世界模型1.0宣告全面开源。这款业界首创的开源模型,突破性地实现了可沉浸漫游、可实时交互、可物理仿真的3D世界生成能力,为游戏开发、虚拟现实(VR)、数字内容创作等多个领域注入了革命性的发展动力。除了这款3D世界模型,腾讯混元还同步公布了涵盖端侧混合推理语言模型、多模态理解模型、游戏视觉模型在内的多项开源计划,展现出构建全方位AI生态的决心。
一句话构建3D世界:创作效率的颠覆性飞跃
作为本次发布的核心亮点,腾讯混元3D世界模型1.0巧妙融合了全景图像合成与分层3D重建技术,突破性地支持文字与图片双模态输入,能够快速生成高质量、风格多变的可漫游3D场景。这意味着,以往需要专业建模团队耗费数周时间精心打造的3D虚拟世界,如今只需一句简单的文字描述或一张参考图片,短短几分钟内就能完整呈现。
如上图所示,左侧界面清晰展示了用户输入“一座中世纪城堡,城堡塔楼宏伟壮阔,城堡周围是一座石头雕像,石头铺成的路以及美丽的花朵,卡通风格”后,模型快速生成的3D场景效果。这一直观的生成过程充分体现了混元3D世界模型在降低创作门槛方面的巨大优势,让游戏开发者能够迅速将创意转化为可视化原型。
对于游戏开发者而言,该模型极大地简化了3D场景的构建流程。生成的标准化3D Mesh文件不仅可直接用于游戏原型搭建或关卡设计,开发者还能灵活调整场景中的前景物体、更换天空背景,轻松满足个性化创作需求。而对于缺乏专业建模经验的普通用户,混元3D创作引擎同样友好易用,只需一句话或一张图,即可生成360°沉浸式视觉空间,并能无缝导入Vision Pro等主流虚拟头显设备,带来身临其境的体验。
此图展示了混元3D世界模型根据“炽热的岩浆形成河流,在黑色熔岩的地表上流动,蒸汽雾霭”这一描述生成的逼真场景。画面中岩浆的流动质感与蒸汽的朦胧效果,凸显了模型在细节刻画和氛围营造上的卓越能力,为影视动画、虚拟文旅等领域的内容创作提供了强大支持。
混元3D世界模型1.0的核心竞争力源于其创新的“语意层次化3D场景表征及生成算法”。该算法能够将复杂的3D世界解构为不同的语意层级,实现前景与背景、地面与天空的智能分离。这不仅保证了生成场景整体视觉效果的逼真度,更能输出标准化的3D Mesh资产,完美兼容Unity、Unreal Engine、Blender等主流创作工具。用户可以对场景内的各个元素进行独立编辑或物理仿真,从而实现AIGC技术与传统CG工作流的无缝衔接,极大提升了创作的灵活性和效率。
与当前全球领先的开源模型相比,混元3D世界模型1.0在文生世界、图生世界的美学质量和指令遵循能力等关键评估维度上,均全面超越了现有的SOTA(State-of-the-Art)开源模型。随着该模型的全面开源,腾讯混元正从秒级生成单个3D资产向一键打造可漫游的3D世界稳步迈进,逐步构建起一个完善的3D内容生成生态系统。
基座模型持续领跑,多模态能力全面升级
腾讯混元的模型迭代速度正不断加快。其旗舰模型TurboS自年初发布以来,始终保持着每月一个版本的快速更新节奏,在代码生成、理科推理能力以及复杂指令遵循等方面均取得了显著提升,稳居全球大模型权威排行榜前列。混元TurboS创新性地采用了前沿的混合线性注意力机制与MoE(Mixture of Experts)模型架构,成为业界首个基于混合线性注意力机制落地的超大规模MoE模型,代表了大模型研发领域的重要技术方向。
基于TurboS基座模型,混元T1进一步强化了推理能力。凭借架构上的创新和扎实的工程实现,混元T1在项目级代码生成、高难度数学推理、长文本写作等任务中均展现出卓越性能,综合能力位居国内领先水平。此外,端到端语音模型混元Voice、多模态理解模型混元Vision均构建于混元大语言模型基座之上,继承了其强大的理解、认知与推理能力。特别是在多模态理解领域,混元今年连续发布多款优化模型,在LMArena Vision全球大模型权威榜单中斩获国内榜首,中文能力稳居全球第一梯队。
在多模态生成方面,混元的布局同样全面。其具备超高速生成高清图像的实时生图能力,以及人物一致性可控的视频生成能力。3D生成能力更是处于全球领先地位,最新的混元3D 2.5模型在质感表现上大幅提升,在上海人工智能实验室6月发布的评测中荣获全球第一。这些模型不仅在技术上领先,更在实际生产场景中展现出巨大价值。全球首个AI设计智能体Lovart已首选调用混元3D模型的API接口,知名3D打印公司拓竹科技旗下的模型平台MakerWorld也已成功接入混元3D模型,推动3D打印内容创作的智能化升级。
全面拥抱开源,共建繁荣AI社区生态
在本次大会上,腾讯混元进一步明确了其全面拥抱开源的战略路线。除了本次发布即同步开源的混元3D世界模型1.0外,混元还计划在月底开源一系列小尺寸模型,包括0.5B、1.8B、4B、7B参数的混合推理模型。这些轻量级模型具备部署便捷、资源消耗低的特点,将进一步降低开发者的使用门槛。
此前,腾讯开源的企业级混合推理大语言模型混元-A13B已引起业界广泛关注。该模型在总参数80B、激活参数仅13B的情况下,性能可媲美同等架构的领先开源模型,同时拥有更快的推理速度和更高的性价比。发布仅3天,混元-A13B就在Hugging Face社区登上模型趋势榜第二名,充分体现了社区对其技术价值的高度认可。
腾讯混元还开放了完整的多模态生成能力及工具集插件,陆续开源了业界领先的文生图、视频生成和3D生成能力,提供性能接近商业模型的开源基座,方便社区开发者根据自身业务和使用场景进行定制化开发。目前,基于混元模型衍生的图像模型数量已达1400个,视频衍生模型数量达1600个,混元3D系列模型的社区下载量更是突破230万次,使其成为全球最受欢迎的3D开源模型之一。
开发者可通过以下渠道获取混元3D世界模型1.0及相关资源:项目主页(https://3d-models.hunyuan.tencent.com/world/)、在线体验地址(https://3d.hunyuan.tencent.com/sceneTo3D)以及Hugging Face模型库(https://huggingface.co/tencent/HunyuanWorld-1)。
随着混元3D世界模型1.0的开源,腾讯正以实际行动推动AI技术的普惠发展。从技术突破到生态构建,腾讯混元不仅为数字内容创作带来了效率革命,更通过开源策略汇聚全球智慧,共同探索AI驱动的未来创作新范式。这一系列举措无疑将加速3D内容生态的繁荣,为元宇宙、数字孪生、虚拟现实等前沿领域的发展奠定坚实基础。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0197
cann-learning-hubCANN 学习中心仓,支持在线互动运行、边学边练,提供教程、示例与优化方案,一站式助力昇腾开发者快速上手。Jupyter Notebook0126
MiMo-V2.5-Pro-FP4-DFlashMiMo-V2.5-Pro-FP4-DFlash 是驱动 MiMo-V2.5-Pro-UltraSpeed 的底层模型: FP4 量化骨干网络:对 MoE 专家采用 MXFP4 量化,同时保持模型其他部分的更高精度,在几乎无损质量的前提下,显著减小模型体积并降低内存带宽压力。 BF16 DFlash 草稿生成器:用于块扩散推测解码,每次前向传播可生成一整个块的 tokens,并让骨干网络一步完成验证。 两者协同作用,既降低了每参数的位宽,又减少了骨干网络前向传播的次数,而这两者正是万亿参数模型解码过程中的两大主要成本来源。Python00
JoyAI-EchoJoyAI-Echo,这是一个独立的、仅用于推理的版本,旨在实现分钟级多镜头音视频生成。它采用了经过蒸馏的DMD生成器、配对的跨模态记忆以及故事级别的一致性。其性能的核心在于,一个跨模态视听记忆库能够在长达五分钟的视频中保持角色外观和语音音色的一致性。同时,一个训练后处理流程将基于记忆的强化学习与分布匹配蒸馏相结合,实现了7.5倍的速度提升,显著增强了视觉质量和对齐效果。00
AstrBot✨ 易上手的多平台 LLM 聊天机器人及开发框架 ✨ 平台支持 QQ、QQ频道、Telegram、微信、企微、飞书 | OpenAI、DeepSeek、Gemini、硅基流动、月之暗面、Ollama、OneAPI、Dify 等。附带 WebUI。Python06
handy-ollama动手学Ollama,CPU玩转大模型部署,在线阅读地址:https://datawhalechina.github.io/handy-ollama/Jupyter Notebook07