LLaVA项目本地模型转换为SGLang格式的技术指南

2025-05-09 03:01:12作者：裴麒琰

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

项目地址：https://gitcode.com/gh_mirrors/ll/LLaVA

在LLaVA项目的实际应用中，用户经常需要将训练好的本地模型转换为SGLang格式以便部署使用。本文将详细介绍这一转换过程中的关键步骤和技术要点。

模型转换的核心步骤

模型类型修正
在config.json文件中，需要将"model_type"字段从"llava_lama"修改为"llava"。这一修改直接影响模型加载时的初始化逻辑。
目录结构调整
必须将模型文件夹重命名为"llava"，否则会导致is_multimodal标志设置错误，进而导致服务器无法正常启动。
预处理器配置补充
训练脚本不会自动保存preprocessor_config.json文件，需要从官方模型仓库中获取并手动添加。
分词器配置完善
需要在tokenizer_config.json中添加两个关键字段：
- "added_tokens_decoder"字典，补充图像token的定义
- "processor_class"字段，设置为"LlavaProcessor"

针对不同版本的特殊处理

对于v1.6版本模型

分词器选择
建议使用SGLang提供的HuggingFace分词器，而非本地保存的分词器。
配置参数调整
在config.json中需要修改以下参数：
- "image_aspect_ratio": "pad" → "anyres"
- "mm_patch_merge_type": "flat" → "spatial_unpad"
- "_name_or_path": 必须包含精确的模型名称（如"llava-v1.6-34b"）

对于v1.5版本模型

配置简化
只需调整"model_type"字段，并移除以下参数：
- "mm_patch_merge_type"
- "mm_projector_lr"

常见问题解决

在转换过程中可能会遇到CUDA错误"device-side assert triggered"，这通常是由于索引越界导致的。具体表现为类似"indexSelectLargeIndex: Assertion srcIndex < srcSelectDimSize failed"的错误信息。

这类问题的解决方法包括：

确保所有配置参数正确无误
检查模型权重文件完整性
验证输入数据的维度匹配性

通过遵循上述步骤，用户可以成功将本地训练的LLaVA模型转换为SGLang兼容格式，实现高效的模型部署和应用。

[NeurIPS'23 Oral] Visual Instruction Tuning (LLaVA) built towards GPT-4V level capabilities and beyond.

项目地址：https://gitcode.com/gh_mirrors/ll/LLaVA

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。