Agenta项目中OTLP追踪数据500错误的排查与修复

2025-06-29 04:26:24作者：郜逊炳

问题背景

在Agenta项目的使用过程中，开发团队发现当Python脚本通过ag.init()初始化并尝试发送追踪(trace)数据时，后端服务会返回500内部服务器错误。这个问题主要出现在集成了多种工具链(Langflow、Ollama、OpenAI等)的应用场景中。

错误现象分析

从日志中可以观察到两个关键错误：

UUID格式错误：后端服务在尝试解析传入数据时，遇到了格式不正确的十六进制UUID字符串，导致ValueError异常。
字典迭代修改问题：在处理属性数据时，出现了字典在迭代过程中被修改的情况，引发了RuntimeError。

技术细节剖析

UUID解析问题

问题根源在于OTLP(OpenTelemetry Protocol)数据中某些字段被错误地标记为UUID类型，而实际传入的数据并不符合UUID的标准格式。OpenTelemetry规范中确实允许自定义属性，但需要确保类型一致性。

字典迭代问题

这是一个典型的并发修改问题。在Python中，直接遍历字典的keys()或items()时，如果同时对字典进行修改(增删键值)，就会抛出RuntimeError。正确的做法应该是先获取键的副本再进行遍历。

解决方案

Agenta团队通过以下方式解决了这些问题：

增强类型检查：在解析输入数据时，增加了更严格的类型验证逻辑，确保UUID字段格式正确。
安全迭代机制：修改了属性处理逻辑，使用字典键的副本来避免迭代过程中的修改冲突。
错误处理改进：增加了更友好的错误提示信息，帮助开发者快速定位数据格式问题。

影响与建议

这个修复已经包含在Agenta SDK v0.28.0版本中。对于开发者来说：

建议升级到最新版SDK以获得稳定性改进。
在集成多种工具链时，注意检查各组件生成的追踪数据是否符合OpenTelemetry规范。
对于自定义属性，确保使用正确的数据类型，特别是类似UUID这样的特殊格式。

总结

这次问题的解决不仅修复了具体的错误，也提升了Agenta项目在分布式追踪方面的健壮性。通过这类问题的处理，Agenta展现了对开发者体验的重视，以及对OpenTelemetry生态的深度支持。

agenta

The open-source LLMOps platform: prompt playground, prompt management, LLM evaluation, and LLM observability all in one place.

项目地址：https://gitcode.com/gh_mirrors/ag/agenta

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Ascend Extension for PyTorch

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。