LMDeploy项目中Turbomind架构对嵌入式模型的支持分析

2025-06-03 03:16:03作者：何将鹤

概述

在LMDeploy项目的Turbomind架构中，对于需要将图片或其他模态数据嵌入到语言模型输入的特殊需求，提供了完善的技术支持方案。本文将深入解析这一功能的技术实现细节和使用方法。

核心功能支持

Turbomind架构通过stream_infer和async_stream_infer接口提供了对嵌入式模型的直接支持。这两个关键接口接受以下参数：

input_embeddings: 表示需要传入的嵌入向量
embedding_ranges: 指定这些嵌入向量在最终hidden_states中的插入位置

这种设计允许开发者灵活地将经过预处理的图像特征或其他模态数据嵌入到语言模型的输入序列中，为多模态模型的推理提供了基础设施支持。

技术实现细节

在LMDeploy 0.6.5版本之前，系统采用双引擎架构：

视觉模型处理：使用Transformers框架（包含remote code）进行特征抽取
语言模型处理：由Turbomind引擎负责推理

从0.6.5版本开始，纯PyTorch引擎的实现方式发生了变化，视觉模型的forward计算也整合到了PyTorch引擎中。这一变更带来了架构上的调整，PyTorch引擎不再支持直接传入embedding和embedding_range参数。

优化建议与实践经验

在实际应用中，开发者可以采取以下优化策略：

权重抽取：不必加载完整的Transformers模型权重，只需提取与图像特征提取相关的层权重即可使用，这能显著减少内存占用。
特征预处理：将图像特征提取过程与语言模型推理分离，提前完成计算密集型操作。
批处理优化：合理设计embedding_ranges，确保多模态输入的批处理效率。

适用场景

这种嵌入式模型支持特别适用于以下场景：

视觉-语言多模态模型
需要自定义输入嵌入逻辑的专用模型
对推理效率要求较高的生产环境

总结

LMDeploy项目的Turbomind架构为嵌入式模型提供了灵活而高效的支持方案。通过理解其内部机制和接口设计，开发者可以构建出性能优异的多模态推理系统。随着版本的演进，这一功能仍在不断优化，建议开发者根据具体需求选择合适的版本和实现方式。

lmdeploy

LMDeploy is a toolkit for compressing, deploying, and serving LLMs.

项目地址：https://gitcode.com/gh_mirrors/lm/lmdeploy

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

MindSpeed-MM

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。