LMDeploy项目中VLM服务部署的本地图片处理方法

2025-06-03 15:15:43作者：申梦珏Efrain

在LMDeploy项目中部署视觉语言模型(VLM)服务时，开发者经常遇到需要处理本地图片上传的问题。本文将详细介绍如何通过Base64编码技术实现本地图片的有效传输和处理。

技术背景

视觉语言模型(VLM)需要同时处理文本和图像输入，当以服务方式部署时，通常要求客户端提供图片的URL地址。然而在实际开发场景中，开发者更常需要处理本地存储的图片文件而非网络图片。

解决方案

通过Base64编码技术，我们可以将本地图片转换为可直接嵌入请求中的文本格式。这种方法不需要额外的图片存储服务，特别适合开发和测试环境使用。

实现步骤

图片读取与编码：使用Python内置模块读取图片文件并进行Base64编码转换
构建请求体：按照OpenAI API格式组织请求数据
发送请求：通过客户端库向部署的服务发送处理请求

代码实现

import base64
from openai import OpenAI

# 初始化客户端连接
client = OpenAI(api_key='placeholder', base_url='http://0.0.0.0:23333/v1')

# 获取可用模型名称
model_name = client.models.list().data[0].id

# 处理本地图片
with open("本地图片路径", "rb") as image_file:
    # 将图片转换为Base64编码字符串
    base64_img = base64.b64encode(image_file.read()).decode('utf-8')
    
    # 构建请求消息体
    messages = [{
        'role': 'user',
        'content': [
            {
                'type': 'text',
                'text': '请描述这张图片的内容'
            },
            {
                'type': 'image_url',
                'image_url': {
                    'url': f'data:image/jpeg;base64,{base64_img}'
                }
            }
        ]
    }]

    # 发送请求并获取响应
    response = client.chat.completions.create(
        model=model_name,
        messages=messages
    )