昇腾平台部署Qwen3-Next全攻略:借助vLLM实现高效推理
2025年9月,AI领域迎来重要技术突破。阿里云通义实验室于9月12日正式发布新一代基础模型架构Qwen3-Next,并同步开源Qwen3-Next-80B-A3B系列大模型。该系列包含Instruct与Thinking两个版本,通过混合架构创新、极致稀疏MoE设计、稳定训练机制及多token预测(MTP)技术,较前代Qwen3 MoE模型在长文本处理与大规模参数场景下的训练推理效率实现显著提升。
作为PyTorch Foundation旗下的明星开源项目,vLLM推理引擎以其高效易用的特性广受开发者青睐。9月15日,vLLM社区迅速响应模型迭代,推出支持昇腾平台的vLLM Ascend v0.10.2rc1版本,为开发者提供了在昇腾AI硬件上部署Qwen3-Next模型的完整技术路径。本文将详细介绍基于容器化方案的部署流程,帮助开发者快速上手这一前沿AI能力。
昇腾环境部署Qwen3-Next实操步骤
环境准备与容器部署
在启动模型部署前,需确保昇腾AI驱动已正确安装。可通过执行npu-smi info命令验证驱动状态,确认设备列表与资源分配情况。驱动就绪后,使用以下命令拉取并启动vLLM Ascend容器:
export IMAGE=quay.io/ascend/vllm-ascend:v0.10.2rc1
docker run --rm \
--name vllm-ascend \
--device /dev/davinci0 \
--device /dev/davinci1 \
--device /dev/davinci2 \
--device /dev/davinci3 \
--device /dev/davinci_manager \
--device /dev/devmm_svm \
--device /dev/hisi_hdc \
-v /usr/local/dcmi:/usr/local/dcmi \
-v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
-v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \
-v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \
-v /etc/ascend_install.info:/etc/ascend_install.info \
-v /root/.cache:/root/.cache \
-p 8000:8000 \
-it $IMAGE bash
该命令会自动配置昇腾设备访问权限、驱动映射与缓存目录,为后续模型运行构建隔离且优化的运行环境。
编译环境配置
容器启动后,需安装毕昇编译器与Triton Ascend运行时环境以支持昇腾平台特性。执行以下命令完成环境配置:
# 安装毕昇编译器
wget https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/Ascend-BiSheng-toolkit_aarch64.run
chmod a+x Ascend-BiSheng-toolkit_aarch64.run
./Ascend-BiSheng-toolkit_aarch64.run --install
source /usr/local/Ascend/8.3.RC1/bisheng_toolkit/set_env.sh
# 安装Triton Ascend推理引擎
wget https://vllm-ascend.obs.cn-north-4.myhuaweicloud.com/vllm-ascend/triton_ascend-3.2.0.dev20250914-cp311-cp311-manylinux_2_27_aarch64.manylinux_2_28_aarch64.whl
pip install triton_ascend-3.2.0.dev20250914-cp311-cp311-manylinux_2_27_aarch64.manylinux_2_28_aarch64.whl
如上图所示,该二维码集成了昇腾技术资源入口,开发者可通过扫码获取最新驱动安装包、编译器工具链及优化指南。这一资源整合方案充分体现了昇腾生态的便捷性,为Qwen3-Next模型部署提供了一站式技术支持。
在线推理服务部署
容器环境配置完成后,可通过vllm serve命令快速启动在线推理服务。考虑到模型文件体积较大(80B参数模型约需300GB存储空间),建议国内用户配置模型加速下载环境变量:
export VLLM_USE_MODELSCOPE=true
vllm serve Qwen/Qwen3-Next-80B-A3B-Instruct --tensor-parallel-size 4 --enforce-eager
服务启动后,可通过curl命令验证推理功能:
curl http://localhost:8000/v1/completions \
-H "Content-Type: application/json" \
-d '{"model": "Qwen/Qwen3-Next-80B-A3B-Instruct ", "prompt": "人工智能的未来发展方向是", "max_tokens": 5, "temperature": 0}' | python3 -m json.tool
离线批量推理实现
对于需要批量处理的场景,vLLM Ascend提供了灵活的Python API。以下示例代码展示如何实现离线推理:
import gc
import torch
from vllm import LLM, SamplingParams
from vllm.distributed.parallel_state import (destroy_distributed_environment,
destroy_model_parallel)
def clean_up():
destroy_model_parallel()
destroy_distributed_environment()
gc.collect()
torch.npu.empty_cache()
if __name__ == '__main__':
prompts = [
"请分析当前AI领域的技术趋势",
"解释什么是稀疏MoE架构"
]
sampling_params = SamplingParams(temperature=0.7, top_p=0.9, max_tokens=128)
llm = LLM(model="Qwen/Qwen3-Next-80B-A3B-Thinking",
tensor_parallel_size=4,
enforce_eager=True,
max_model_len=8192)
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
print(f"输入: {output.prompt!r}\n输出: {output.outputs[0].text!r}\n")
del llm
clean_up()
执行脚本前同样需要配置模型下载加速:
export VLLM_USE_MODELSCOPE=true
python example.py
技术支持与资源链接
开发者在部署过程中遇到任何问题,可通过以下渠道获取支持:
- 项目代码库:vLLM Ascend官方实现(含昇腾优化补丁)
- 文档中心:vllm-ascend.readthedocs.io(含API参考与性能调优指南)
- 社区论坛:昇腾开发者论坛模型部署板块(技术专家在线答疑)
- 教程资源:昇腾社区提供的从环境搭建到应用开发全流程视频课程
昇腾平台与vLLM的深度整合,为Qwen3-Next这类超大模型提供了高效部署解决方案。通过容器化部署、自动并行优化与昇腾硬件加速,开发者可在普通服务器环境下运行80B参数模型,这一突破有望加速大模型在企业级应用中的落地进程。随着昇腾AI芯片性能的持续提升与软件栈的不断完善,我们有理由相信,大模型的推理成本将进一步降低,推动AI技术在各行业的规模化应用。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00
请把这个活动推给顶尖程序员😎本次活动专为懂行的顶尖程序员量身打造,聚焦AtomGit首发开源模型的实际应用与深度测评,拒绝大众化浅层体验,邀请具备扎实技术功底、开源经验或模型测评能力的顶尖开发者,深度参与模型体验、性能测评,通过发布技术帖子、提交测评报告、上传实践项目成果等形式,挖掘模型核心价值,共建AtomGit开源模型生态,彰显顶尖程序员的技术洞察力与实践能力。00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00