Text-Embeddings-Inference项目中的ONNX文件下载问题解析

2025-06-24 15:12:55作者：宣利权Counsellor

text-embeddings-inference

A blazing fast inference solution for text embeddings models

项目地址：https://gitcode.com/gh_mirrors/te/text-embeddings-inference

在Text-Embeddings-Inference（TEI）项目的1.5.0 CPU版本中，用户在使用某些特定模型时遇到了ONNX文件下载不完整的问题。本文将深入分析这一技术问题的原因、影响范围以及解决方案。

问题现象

当用户尝试运行intfloat/multilingual-e5-large等特定模型时，TEI服务无法正常启动。错误日志显示系统成功下载了model.onnx文件，但随后报错提示无法反序列化特定张量。核心错误信息表明系统无法获取model.onnx_data文件的长度，因为该文件未被正确下载。

技术背景

ONNX（Open Neural Network Exchange）是一种用于表示深度学习模型的开放格式。在Hugging Face生态中，某些大型模型会将模型参数存储在单独的model.onnx_data文件中，而非直接嵌入到model.onnx文件中。这种设计主要是为了优化存储和加载效率。

问题根源

TEI 1.5.0 CPU版本的后端实现存在一个关键缺陷：它只自动下载model.onnx文件，而没有同时下载配套的model.onnx_data文件。对于使用分离存储结构的模型（如intfloat/multilingual-e5-large和BAAI/bge-large-en-v1.5），这种不完整的下载会导致运行时错误。

影响范围

此问题主要影响以下情况：

使用TEI 1.5.0 CPU版本
运行采用分离式ONNX存储结构的模型
在Docker环境中部署

解决方案

目前项目团队已在代码库中修复了这一问题，但尚未发布包含修复的正式版本。用户可采用以下临时解决方案：

使用cpu-latest标签的容器镜像，该镜像会定期更新并包含最新的修复
对于有GPU环境的用户，可暂时切换到GPU版本的镜像
等待项目团队发布包含修复的正式版本

技术建议

对于深度学习模型部署，特别是使用ONNX格式时，开发者应当注意：

模型文件可能采用多种存储结构，需要确保所有相关文件都被正确加载
容器化部署时要关注基础镜像的版本和更新频率
对于关键业务场景，建议使用稳定版本而非最新开发版本

这个问题也提醒我们，在模型转换和部署过程中，理解模型的具体存储结构对于确保服务稳定性至关重要。

text-embeddings-inference

A blazing fast inference solution for text embeddings models

项目地址：https://gitcode.com/gh_mirrors/te/text-embeddings-inference

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息