Text-embeddings-inference项目在Jetson AGX Orin上的适配实践

2025-06-24 05:07:29作者：范垣楠Rhoda

text-embeddings-inference

A blazing fast inference solution for text embeddings models

项目地址：https://gitcode.com/gh_mirrors/te/text-embeddings-inference

背景介绍

Text-embeddings-inference是HuggingFace推出的一个高性能文本嵌入推理服务项目，它能够高效地处理各种文本嵌入模型。在边缘计算设备如NVIDIA Jetson AGX Orin上部署这类服务具有重要的应用价值，但由于硬件架构的特殊性，直接部署可能会遇到兼容性问题。

问题现象

在Jetson AGX Orin设备上（配备64GB内存，SM 8.7架构）部署text-embeddings-inference服务时，运行会出现计算能力不兼容的错误提示。具体表现为服务启动时报告"Runtime compute cap 87 is not compatible with compile time compute cap 87"的错误，导致后端无法正常启动。

问题分析

这个问题的根源在于项目的CUDA计算能力兼容性设置。Jetson AGX Orin采用了SM8.7架构，而项目默认可能没有包含对这一特定计算能力的完整支持。虽然错误信息显示运行时和编译时的计算能力都是87，看似匹配，但实际上项目代码中可能缺少对SM8.7架构的显式支持配置。

解决方案

通过修改项目源代码中的计算能力配置文件可以解决这个问题：

定位到项目中的计算能力配置文件（通常位于backends/candle/src/compute_cap.rs）
添加对SM8.7架构的显式支持
重新编译项目

修改后的代码需要显式包含对计算能力8.7的支持，确保编译时能够正确识别Jetson AGX Orin的硬件特性。

验证结果

在Jetpack 6.1系统（CUDA 12.6环境）上，经过上述修改后：

服务能够正常启动
文本嵌入推理功能运行稳定
性能表现符合预期

技术要点

计算能力(Compute Capability)：NVIDIA GPU的重要特性指标，决定了硬件支持的指令集和功能特性。
Jetson AGX Orin特性：基于ARM架构的边缘计算设备，具有高能效比，适合部署AI推理服务。
CUDA兼容性：不同CUDA版本和计算能力之间的兼容性需要特别注意，特别是在边缘设备上。

最佳实践建议

在边缘设备上部署前，务必检查硬件计算能力与软件要求的匹配性
对于较新的硬件架构，可能需要手动添加支持
建议在Jetpack 6.1及以上版本运行，确保CUDA环境兼容性
部署完成后，建议进行全面的功能测试和性能测试

总结

通过适当的代码修改，text-embeddings-inference项目可以很好地适配Jetson AGX Orin平台。这为在边缘设备上部署高性能文本嵌入服务提供了可行方案，扩展了该项目的应用场景。对于开发者而言，理解硬件计算能力与软件兼容性的关系是解决此类问题的关键。

text-embeddings-inference

A blazing fast inference solution for text embeddings models

项目地址：https://gitcode.com/gh_mirrors/te/text-embeddings-inference

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

昇腾LLM分布式训练框架

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统