Azure AI Evaluation 1.2.0 版本发布：多模态评估与CSV支持升级

2025-06-12 09:33:23作者：裘晴惠Vivianne

This repository is for active development of the Azure SDK for Python. For consumers of the SDK we recommend visiting our public developer docs at https://docs.microsoft.com/python/azure/ or our versioned developer docs at https://azure.github.io/azure-sdk-for-python.

项目地址：https://gitcode.com/GitHub_Trending/az/azure-sdk-for-python

项目概述

Azure AI Evaluation 是微软Azure SDK for Python中的一个重要组件，专注于为人工智能模型提供全面的评估能力。该工具包使开发者能够系统地评估AI模型在各种场景下的表现，包括内容安全性、对话质量等关键指标。

核心更新亮点

CSV文件支持的重大扩展

1.2.0版本引入了对CSV文件作为数据输入的完整支持，这显著提升了批量评估的便利性。开发者现在可以直接将包含评估数据的CSV文件传递给evaluate()API，系统会自动解析文件内容进行评估。

使用要点：

CSV文件必须包含标题行，列名需与evaluate()方法中的data和target字段匹配
文件名应作为data参数传递
当前版本对包含"Conversation"列的CSV文件支持仍在完善中

这一改进特别适合需要处理大规模评估数据的场景，如批量测试AI模型的多个版本或不同配置下的表现。

评估能力优化

多模态评估器调整

本次更新对多模态评估器进行了重要调整，以下评估器将在下一个版本中移除：

暴力内容多模态评估器(ViolenceMultimodalEvaluator)
性相关内容多模态评估器(SexualMultimodalEvaluator)
自残内容多模态评估器(SelfHarmMultimodalEvaluator)
仇恨/不公平内容多模态评估器(HateUnfairnessMultimodalEvaluator)
受保护材料多模态评估器(ProtectedMaterialMultimodalEvaluator)

建议开发者提前规划迁移策略，考虑使用替代的评估方案。

内容安全评估逻辑改进

内容安全评估器(包括暴力、自残、性相关、仇恨/不公平等)现在采用最大值而非平均值作为对话评估的聚合分数。这一变化更符合安全评估的实际需求，确保任何单次违规都能被有效识别。

其他支持对话评估的评估器仍默认使用平均值作为聚合方式，保持了评估策略的灵活性。

技术架构优化

依赖与运行环境调整

1.2.0版本对运行环境提出了更高要求：

最低Python版本从3.8提升至3.9
移除了对本地promptflow服务的依赖，评估运行时不再自动启动promptflow服务
移除了[remote]额外依赖项，简化了与Azure AI Studio的结果追踪集成

性能与稳定性增强

修复了多个关键问题：

修复了模拟器处理1000+结果时的AttributeError异常
优化了非对抗性模拟器在无任务模式下的运行逻辑
解决了评估器自定义聚合与同步模式(AI_EVALS_BATCH_USE_ASYNC=false)的序列化冲突
修正了非对抗性模拟器示例中tasks未定义的问题

开发者实践建议

对于计划升级到1.2.0版本的开发者，建议：

环境准备：确保Python环境已升级至3.9或更高版本
数据迁移：将现有评估数据逐步转换为CSV格式，利用新的文件支持功能
评估策略：针对内容安全评估场景，了解最大值聚合策略的影响
过渡规划：为即将移除的多模态评估器准备替代方案

这一版本在评估能力、使用便利性和系统稳定性方面都有显著提升，为AI模型的全面评估提供了更加强大和灵活的工具集。

azure-sdk-for-python

项目地址：https://gitcode.com/GitHub_Trending/az/azure-sdk-for-python

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

1.13 K

271

Azure AI Evaluation 1.2.0 版本发布：多模态评估与CSV支持升级

项目概述

核心更新亮点

CSV文件支持的重大扩展

评估能力优化

多模态评估器调整

内容安全评估逻辑改进

技术架构优化

依赖与运行环境调整

性能与稳定性增强

开发者实践建议

热门内容推荐

最新内容推荐

项目优选

Azure AI Evaluation 1.2.0 版本发布：多模态评估与CSV支持升级

项目概述

核心更新亮点

CSV文件支持的重大扩展

评估能力优化

多模态评估器调整

内容安全评估逻辑改进

技术架构优化

依赖与运行环境调整

性能与稳定性增强

开发者实践建议

相关内容推荐

热门内容推荐

最新内容推荐

项目优选