promptfoo项目0.103.14版本发布：安全测试与评估能力全面升级

2025-06-09 21:10:18作者：翟江哲Frasier

promptfoo是一个专注于AI提示工程和模型评估的开源工具，它帮助开发者系统地测试、比较和优化不同AI模型的提示词效果。通过提供标准化的评估框架，promptfoo使得AI应用的开发过程更加可靠和高效。

安全测试能力显著增强

本次0.103.14版本在安全测试方面进行了多项重要改进。新增了InsultsGrader不当内容检测器，能够有效识别AI输出中的不当语言。同时引入了多个专业的安全评估器，包括针对敏感医疗相关内容、违规行为、网络安全问题和不当言论内容的检测能力。

这些安全评估器的加入使得promptfoo能够更全面地评估AI模型在安全方面的表现，帮助开发者识别和防范潜在风险。特别是对于面向公众的AI应用，这些功能可以大幅提升内容安全防护能力。

测试结果导出功能优化

新版本增强了测试结果的导出能力，新增了对Burp Suite格式的支持。Burp Suite是一款广泛使用的Web应用安全测试工具，这一改进使得promptfoo的测试结果能够无缝集成到现有的安全测试工作流中。

同时，改进了会话ID的处理机制，现在可以更灵活地在请求和响应体中提取和设置会话ID，这为复杂的测试场景提供了更大的灵活性。

用户体验与稳定性改进

在用户体验方面，新版本修复了多个界面问题，包括签名数据字段的默认值填充问题，以及签名认证组件的控制逻辑优化。这些改进使得工具的使用更加顺畅和可靠。

对于Azure用户，新版本特别处理了内容过滤错误导致的400响应，提高了与Azure服务的兼容性。同时，报告视图现在支持按优先级策略排序，使得结果分析更加直观。

测试覆盖与代码质量提升

开发团队在本版本中投入了大量精力提升测试覆盖率，新增了多个关键模块的单元测试，包括上下文相关性评估、答案相关性评估、上下文忠实度评估等核心功能。这些测试确保了工具的稳定性和可靠性。

同时，项目更新了多个依赖库的版本，包括Anthropic SDK和OpenAI SDK等关键组件，确保与最新API保持兼容。

总结

promptfoo 0.103.14版本在安全测试能力、结果导出功能和用户体验等方面都有显著提升。特别是新增的多项安全评估器，使得它成为评估AI模型安全性的有力工具。对于需要确保AI应用安全性的开发者来说，这个版本提供了更全面的测试手段和更流畅的工作体验。

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

455

437

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANN 学习中心仓，支持在线互动运行、边学边练，提供教程、示例与优化方案，一站式助力昇腾开发者快速上手。