Promptfoo 0.103.12版本发布：提升AI测试框架的稳定性和安全性

2025-06-09 14:19:41作者：鲍丁臣Ursa

Promptfoo是一个专注于AI模型测试和评估的开源框架，它允许开发者系统地测试提示词(prompt)在不同AI模型下的表现，确保AI应用的可靠性和安全性。最新发布的0.103.12版本带来了一系列重要的改进和修复，特别是在安全测试和错误处理方面。

核心改进

OpenAI工具资源支持

本次更新为OpenAI助手添加了对tool_resources的支持。这一改进使得开发者能够在测试中更全面地评估AI助手的功能，特别是那些依赖外部工具和资源的复杂场景。工具资源是OpenAI助手API中的一个重要特性，允许助手访问和操作外部数据源。

参数优化

OpenAI提供商的默认参数设置得到了优化。新版本移除了top_p、presence_penalty和frequency_penalty等参数的默认设置，让开发者可以更灵活地根据具体需求配置这些影响模型输出的重要参数。这种改变有助于减少不必要的干预，让测试结果更加准确反映模型的实际表现。

安全测试增强

红队测试改进

红队测试(Red Team Testing)是评估AI系统安全性的重要手段。0.103.12版本在这方面做了多项改进：

新增了版权违规检测评分器，帮助识别模型可能产生的侵权内容
优化了竞争对手检测评分器，减少误报情况
改进了自残、暴力、色情等内容检测的准确性
空响应不再被视为红队测试失败，更符合实际评估需求

这些改进使得安全测试更加全面和准确，帮助开发者更好地识别和防范潜在风险。

错误处理与稳定性

序列化问题修复

针对Groq等提供商配置中存在自引用时的序列化问题进行了修复。这类问题在复杂配置场景下可能导致测试失败，修复后提升了框架的健壮性。

React Markdown错误边界

Web界面中的Markdown渲染组件现在有了错误边界处理。这意味着即使遇到格式异常的Markdown内容，也不会导致整个界面崩溃，而是会优雅地降级处理，提供更好的用户体验。

测试覆盖扩展

本次更新包含了多个新增的单元测试，覆盖了BAM提供商、红队评分器、Crescendo提供商等关键组件。测试覆盖率的提升意味着更高的代码质量和更可靠的测试结果。

开发者体验

类型定义清理

移除了ApiProvider中未使用的getSessionId字段，简化了类型定义，使开发者接口更加清晰。

依赖更新

包括AWS Bedrock Runtime客户端和OpenAI SDK在内的多个依赖项更新到了最新版本，确保与最新API保持兼容。

Promptfoo 0.103.12版本的这些改进，特别是在安全测试和错误处理方面的增强，使得这个AI测试框架更加成熟可靠。对于依赖AI模型的开发者来说，这些更新将帮助他们构建更安全、更稳定的AI应用。

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

986

248