GLM-4项目中的GLM-4v模型vLLM推理支持进展分析

2025-06-03 07:43:10作者：咎岭娴Homer

在大型语言模型部署实践中，推理效率一直是开发者关注的重点。GLM-4项目中的多模态模型GLM-4v近期在vLLM推理支持方面取得了重要进展，这对于需要高性能推理服务的开发者而言具有重要意义。

vLLM作为当前最先进的高吞吐量推理引擎，采用了创新的PagedAttention技术，能够显著提升推理速度并降低显存占用。根据GLM-4项目的最新动态，开发团队已经完成了GLM-4v模型对vLLM 0.6.2版本的适配工作，相关代码即将合并到主分支。

值得注意的是，当前适配版本尚不支持GLM-4v 9B模型的int4量化推理。量化推理通常可以进一步降低显存需求并提升推理速度，但需要额外的适配工作。开发者若需要部署量化版本，目前仍需等待后续更新或考虑其他推理方案。

对于计划部署GLM-4v的开发者，建议关注项目更新动态，及时获取最新适配的vLLM版本。在实际部署时，可以参考项目文档中的配置示例，确保正确加载多模态能力和视觉理解模块。

随着vLLM支持的完善，GLM-4v模型将能够在生产环境中提供更高效的推理服务，满足多用户并发请求的需求，为图像理解、多模态对话等应用场景提供更好的服务体验。

GLM-4

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

喝着茶写代码！最易用的自托管一站式代码托管平台，包含Git托管，代码审查，团队协作，软件包和CI/CD。

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Ascend Extension for PyTorch

GLM-4项目中的GLM-4v模型vLLM推理支持进展分析

相关内容推荐

项目优选