GLM4V-9B模型微调后的调用与图像对话实践指南

2025-06-03 21:07:42作者：卓艾滢Kingsley

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

模型微调后的文件结构解析

在完成GLM4V-9B模型的微调后，用户会得到一个checkpoint-xxx-merged文件夹，其中包含多个关键文件。这些文件构成了完整的微调后模型，主要包括模型参数文件、配置文件等核心组件。理解这些文件的组成对于后续的模型调用至关重要。

模型调用方法详解

基础调用方式

对于GLM4V-9B微调后的模型，可以使用Swift框架提供的工具进行调用。通过以下命令可以完成模型的导出和推理：

# 合并LoRA权重
CUDA_VISIBLE_DEVICES=0 swift export \
    --ckpt_dir output/glm4v-9b-chat/vx-xxx/checkpoint-xxx \
    --merge_lora true

# 执行推理
CUDA_VISIBLE_DEVICES=0 swift infer \
    --ckpt_dir output/glm4v-9b-chat/vx-xxx/checkpoint-xxx-merged \
    --load_dataset_config true

图像对话实现方案

要实现单张图像的对话功能，可以采用cli_vision demo的方式。这种方法特别适合视觉语言模型的交互式测试，能够直观地展示模型对图像内容的理解和对话能力。

高级功能与优化

VLLM加速支持

目前GLM4V-9B已经支持VLLM加速推理，这可以显著提升模型的推理速度。不过需要注意的是，当前版本暂不支持LoRA微调后模型的VLLM加速，这是开发者需要特别注意的限制。

实践建议

在调用微调后的模型前，确保已正确安装所有依赖项和环境配置
对于图像对话场景，建议先使用小规模测试集验证模型效果
注意模型对硬件资源的需求，特别是显存占用情况
可以尝试不同的prompt设计来优化对话效果

通过以上方法和建议，开发者可以有效地调用微调后的GLM4V-9B模型，实现高质量的图像对话功能。随着项目的持续发展，未来可能会有更多优化和功能加入，建议持续关注项目更新。

GLM-4 series: Open Multilingual Multimodal Chat LMs | 开源多语言多模态对话模型

项目地址：https://gitcode.com/gh_mirrors/gl/GLM-4

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

ohos_react_native

React Native鸿蒙化仓库

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

openGauss-server

openGauss kernel ~ openGauss is an open source relational database management system