NVIDIA nv-ingest项目中YOLOX服务与OpenTelemetry连接问题解析

2025-06-29 17:42:07作者：翟萌耘Ralph

NeMo Retriever Library is a scalable, performance-oriented document content and metadata extraction microservice. NeMo Retriever Library uses specialized NVIDIA NIM microservices to find, contextualize, and extract text, tables, charts and images that you can use in downstream generative applications.

项目地址：https://gitcode.com/GitHub_Trending/nv/NeMo-Retriever

问题背景

在NVIDIA开源的nv-ingest项目中，用户在使用Multimodal PDF数据提取蓝图时遇到了YOLOX服务无法连接到OpenTelemetry服务的问题。该问题出现在使用Docker Compose部署的24.10版本环境中。

问题现象

当用户按照项目文档启动服务后，YOLOX服务持续抛出连接错误，具体表现为无法连接到OpenTelemetry Collector的HTTP端点(4318端口)。错误日志显示服务尝试建立连接时被拒绝，最终导致Span批量导出失败。

根本原因分析

经过深入分析，发现问题的根源在于OpenTelemetry Collector的配置文件存在缺陷。当前的config/otel-collector-config.yaml文件中，接收器(receivers)配置部分仅定义了gRPC协议，而缺少HTTP协议端点的配置。

技术细节

OpenTelemetry Collector作为可观测性数据管道，需要同时支持gRPC和HTTP两种协议：

gRPC协议：默认端口4317，性能更高，适合服务间通信
HTTP协议：默认端口4318，兼容性更好，适合某些特定场景

在当前的配置中，只有gRPC协议被显式配置，而YOLOX服务可能默认尝试通过HTTP协议连接，导致连接失败。

解决方案

正确的配置应该同时包含两种协议的端点定义：

receivers:
  otlp:
    protocols:
      grpc:
        endpoint: 0.0.0.0:4317
      http:
        endpoint: 0.0.0.0:4318

这种配置方式确保了服务无论使用哪种协议都能正常连接，提高了系统的兼容性和可靠性。

最佳实践建议

协议兼容性：在生产环境中，建议同时配置gRPC和HTTP协议端点，以满足不同客户端的连接需求。
安全考虑：在公开环境中，应考虑添加TLS加密配置，特别是对于HTTP协议。
性能优化：对于高吞吐量场景，可以优先使用gRPC协议，因其具有更好的性能表现。
健康检查：配置适当的健康检查端点，便于监控连接状态。

总结

这个案例展示了在微服务架构中，协议兼容性配置的重要性。通过完善OpenTelemetry Collector的接收器配置，可以确保不同服务能够可靠地连接并传输可观测性数据。对于使用nv-ingest项目的开发者来说，理解这些配置细节有助于快速排查和解决类似问题。

NeMo-Retriever

项目地址：https://gitcode.com/GitHub_Trending/nv/NeMo-Retriever

登录后查看全文

项目优选

收起

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

461

455

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

Dart

1.02 K

266