THUDM/GLM-4项目中的GLM-4V-9B模型微调支持现状分析

2025-06-03 13:03:48作者：魏侃纯Zoe

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

背景概述

GLM-4V-9B作为THUDM团队推出的多模态大模型，基于通用语言模型框架GLM-4构建，具备90亿参数规模，在视觉-语言联合任务中展现出较强的泛化能力。该模型继承了GLM系列的自回归填充特性，同时通过视觉编码器的引入实现了对图像数据的理解。

微调支持现状

目前官方确认，GLM-4V-9B的微调功能已通过Swift工具链实现支持。Swift是专为大规模预训练模型设计的轻量级微调框架，其特点包括：

高效参数更新：支持LoRA等参数高效微调方法，显著降低计算资源需求
多模态适配：针对视觉-语言模型的交叉注意力机制进行了优化
任务灵活性：支持图像描述、视觉问答等多模态下游任务适配

技术实现建议

对于希望进行微调的用户，建议采用以下技术路线：

环境准备：确保PyTorch环境与CUDA版本兼容
数据预处理：构建符合多模态输入的（图像，文本）配对数据集
微调策略选择：
- 全参数微调：适用于充足计算资源场景
- 参数高效微调：推荐使用LoRA或Adapter技术
评估指标设计：根据具体任务设计视觉-语言对齐度的评估体系

未来展望

随着多模态大模型的发展，预期THUDM团队将持续优化：

分布式微调支持
更丰富的视觉编码器选项
量化微调方案

当前用户可通过Swift工具链充分利用现有能力开展多模态应用探索。建议关注官方更新以获取最新的功能增强。

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

ohos_react_native

React Native鸿蒙化仓库

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力