AgentOps项目中的OpenTelemetry事件计数方案设计

2025-06-14 03:53:05作者：郦嵘贵Just

Python SDK for AI agent monitoring, LLM cost tracking, benchmarking, and more. Integrates with most LLMs and agent frameworks including CrewAI, Agno, OpenAI Agents SDK, Langchain, Autogen, AG2, and CamelAI

项目地址：https://gitcode.com/GitHub_Trending/ag/agentops

背景介绍

在AgentOps项目的v0.4版本重构过程中，开发团队面临一个关键的技术挑战：如何将原有的"事件计数"功能从传统的事件对象跟踪方式迁移到OpenTelemetry架构中。这一重构不仅需要保持与旧版本的兼容性，还需要充分利用OpenTelemetry提供的强大观测能力。

技术挑战分析

传统SDK中，Session模块通过直接创建Event对象来跟踪各类事件计数，包括LLM调用、工具调用、动作执行等。但在OpenTelemetry架构下，事件跟踪机制发生了根本性变化：

不再创建显式的Event对象
OpenTelemetry提供了专门的Metrics和Meters概念来替代传统计数方式
需要保持与旧版API的兼容性

解决方案设计

核心架构

解决方案采用分层设计思想，分为以下几个关键组件：

Meter与计数器基础设施：在SessionTelemetry类中初始化OpenTelemetry Meter并创建各类计数器
适配器层：提供向后兼容的接口，确保现有代码无需修改
自动检测机制：通过OpenTelemetry的语义约定自动分类和计数事件

详细实现方案

1. Meter与计数器初始化

在SessionTelemetry类中，我们创建了专用的Meter实例和各类计数器：

class SessionTelemetry:
    def __init__(self, session: Session):
        self.meter = get_meter("agentops.session", __version__)
        
        # 创建各类计数器
        self.llm_counter = self.meter.create_counter(
            name="agentops.session.llm.calls",
            unit="call",
            description="LLM API调用次数"
        )
        
        # 其他计数器类似初始化...

每种计数器对应一种事件类型，包括LLM调用、工具调用、动作执行、错误和API调用。

2. 向后兼容适配器

为了确保现有代码继续工作，我们实现了SessionTelemetryAdapter适配器类：

class SessionTelemetryAdapter:
    @property
    def event_counts(self):
        """提供与旧版兼容的事件计数访问接口"""
        return {
            "llms": 0,  # 实际从计数器获取
            "tools": 0,
            # 其他计数...
        }
    
    def count_llm(self):
        """LLM调用计数方法"""
        pass  # 实际调用计数器增加

3. 自动事件分类

利用OpenTelemetry的语义约定(Semantic Conventions)来自动识别和分类事件：

# 根据span属性自动分类事件
if span.attributes.get("llm.request_type") == "chat":
    session.count_llm()
elif span.attributes.get("llm.request_type") == "completion":
    session.count_llm()