Azure AI Evaluation 1.6.0版本发布：增强评估能力与Azure OpenAI集成

2025-06-12 13:52:49作者：翟萌耘Ralph

This repository is for active development of the Azure SDK for Python. For consumers of the SDK we recommend visiting our public developer docs at https://docs.microsoft.com/python/azure/ or our versioned developer docs at https://azure.github.io/azure-sdk-for-python.

项目地址：https://gitcode.com/GitHub_Trending/az/azure-sdk-for-python

Azure AI Evaluation是微软Azure SDK for Python中的一个重要组件，它为开发者和数据科学家提供了强大的AI模型评估工具。该库专注于帮助用户系统地评估AI模型的性能、可靠性和安全性，特别适用于自然语言处理(NLP)相关应用的评估场景。

核心功能增强

本次1.6.0版本带来了多项重要更新，显著提升了评估功能的实用性和灵活性。最值得关注的是新增的二进制聚合评估结果字段<evaluator>.binary_aggregate，它为每个评估器提供了评估结果的汇总统计。这一改进使得开发者能够快速获取评估结果的宏观视图，而不需要手动处理原始数据。

在评估指标方面，新版本提供了更丰富的统计维度，包括准确率、召回率、F1分数等常见分类指标，以及针对特定场景的定制化指标。这些指标以结构化的方式呈现，便于后续分析和报告生成。

Azure OpenAI评估集成

1.6.0版本引入了对Azure OpenAI评估的原生支持，通过四个新的"grader"类实现了无缝集成：

AzureOpenAIGrader：为有经验的用户提供的基础类，允许最大程度的自定义配置
AzureOpenAILabelGrader：专为标签分类评估场景设计
AzureOpenAIStringCheckGrader：用于字符串匹配和内容检查评估
AzureOpenAITextSimilarityGrader：专注于文本相似度比较评估

这些grader类可以直接作为可调用评估器传递给主evaluate方法，使用方式与常规评估器完全一致。这种设计保持了API的一致性，同时扩展了评估能力。

数据兼容性改进

新版本修复了数据字段中不能包含数字字符的限制问题。现在，评估配置可以正确处理包含数字的字段名，如：

{
    "evaluator_name": {
        "column_mapping": {
            "query": "${data.query1}", 
            "response": "${data.response}"
        }
    }
}

这一改进使得库能够更好地适应各种数据源，特别是当数据来自外部系统或已有数据集时，不再需要额外的字段名转换步骤。

RedTeam扫描功能优化

在实验性的RedTeam扫描功能中，参数设计进行了调整，用skip_evals替换了原来的data_only参数，并新增了skip_upload标志来控制数据上传行为。这些变更使得功能逻辑更加清晰，用户可以根据需要灵活选择是否执行评估或上传数据。

技术实现考量

从架构角度看，1.6.0版本在保持API稳定性的同时，通过新增组件扩展了功能边界。评估结果的数据结构设计考虑了向后兼容性，新增的二进制聚合字段不会影响现有代码的正常工作。

Azure OpenAI集成采用了适配器模式，将不同的评估场景抽象为统一的接口，这种设计既满足了特定场景的需求，又保持了系统的扩展性。开发者可以根据需要选择适当的grader类，或者基于基础类实现自定义评估逻辑。

应用场景建议

新版本特别适合以下应用场景：

多模型对比评估：利用新的聚合功能快速比较不同模型的性能差异
生产环境监控：通过定期评估监控模型性能变化
合规性检查：使用RedTeam功能进行安全性和合规性验证
研究实验：结合Azure OpenAI评估器进行创新的NLP研究

对于需要严格评估AI系统表现的企业用户，1.6.0版本提供了更全面的工具集，从基础指标计算到高级的Azure OpenAI集成评估，覆盖了完整的评估需求链条。

升级建议

对于现有用户，升级到1.6.0版本是推荐的，特别是那些：

需要使用Azure OpenAI进行模型评估的团队
处理包含数字字段名数据源的项目
依赖RedTeam功能进行安全评估的安全团队

升级过程应该是平滑的，主要的变更点在于新增功能而非破坏性修改。不过，使用RedTeam功能的用户需要注意参数名的变更，相应调整调用代码。

azure-sdk-for-python

项目地址：https://gitcode.com/GitHub_Trending/az/azure-sdk-for-python

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.13 K

271

Azure AI Evaluation 1.6.0版本发布：增强评估能力与Azure OpenAI集成

核心功能增强

Azure OpenAI评估集成

数据兼容性改进

RedTeam扫描功能优化

技术实现考量

应用场景建议

升级建议

热门内容推荐

最新内容推荐

项目优选

Azure AI Evaluation 1.6.0版本发布：增强评估能力与Azure OpenAI集成

核心功能增强

Azure OpenAI评估集成

数据兼容性改进

RedTeam扫描功能优化

技术实现考量

应用场景建议

升级建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选