DeepEval v2.7.9发布：v3.0预发布版本重大更新解析

2025-06-09 15:41:52作者：殷蕙予

DeepEval是一个专注于大语言模型(LLM)评估的开源框架，它帮助开发者系统地测试和验证LLM应用的性能表现。本次发布的v2.7.9版本是v3.0正式发布前的预发布版本，引入了一些重要的架构变更和新功能，值得开发者特别关注。

重大变更解析

评估函数配置重构

在之前的版本中，evaluate()函数包含了13个以上的参数来控制显示、异步行为、缓存等各种功能，这使得函数接口变得臃肿且难以维护。新版本对此进行了重大重构，将这些控制参数抽象为"配置对象"。

这种设计模式的变化带来了几个显著优势：

更好的代码组织：相关配置被逻辑分组，提高了代码的可读性
更强的类型安全：配置对象可以定义明确的类型提示
更易扩展：未来新增配置项不会影响函数签名

使用示例：

from deepeval.evaluate.configs import AsyncConfig
from deepeval import evaluate

# 使用异步配置对象替代多个独立参数
evaluate(..., async_config=AsyncConfig(max_concurrent=20))

红队测试功能迁移

红队测试(Red Teaming)相关功能已正式迁移至DeepTeam项目。这是项目架构调整的一部分，目的是让DeepEval更专注于核心评估功能，而将对抗性测试等专业领域交给专门的工具处理。

重要新功能：动态嵌套评估

评估复杂LLM应用中的嵌套组件一直是个挑战。新版本引入了动态评估机制，允许为应用中的不同组件应用不同的评估指标集。

这项功能通过@observe装饰器和update_current_span_test_case函数实现，主要特点包括：

细粒度控制：可以为每个函数或组件指定特定的评估指标
上下文感知：评估能够感知调用链中的上下文信息
无缝集成：与现有的测试用例系统完美兼容

典型使用模式：

from deepeval.test_case import LLMTestCase
from deepeval.metrics import AnswerRelevancyMetric
from deepeval.tracing import observe, update_current_span_test_case

@observe(metrics=[AnswerRelevancyMetric()])
def complete(query: str):
    # LLM调用逻辑
    response = get_llm_response(query)
    
    # 更新当前span的测试用例
    update_current_span_test_case(
        test_case=LLMTestCase(input=query, output=response)
    )
    return response