promptfoo项目0.114.6版本发布：强化红队测试与医疗插件支持

2025-06-09 20:04:42作者：魏侃纯Zoe

promptfoo是一个专注于提示工程和AI模型评估的开源工具，它帮助开发者系统地测试、比较和优化各种AI模型的提示效果。该项目通过提供标准化的评估框架，使团队能够量化不同提示策略的效果差异。

本次发布的0.114.6版本主要围绕红队测试功能进行了多项增强，同时优化了Web界面的用户体验。作为一次增量更新，它在前一版本基础上进一步完善了核心功能。

红队测试功能增强

本次更新在红队测试模块中新增了医疗领域专用插件，专门用于测试医疗场景下的锚定偏差(anchoring bias)。锚定偏差是医疗决策中常见的一种认知偏差，指医生在诊断时过度依赖最初获得的信息而忽视后续证据的现象。通过这一插件，开发者可以模拟医疗场景下的决策过程，评估AI系统是否会产生类似的认知偏差。

红队测试报告输出功能也得到了改进，现在生成的CSV报告中会包含插件ID和策略ID信息，这使得测试结果的分析和追踪更加方便。此外，命令行工具新增了target选项，允许用户更精确地指定测试目标。

模型支持与配置优化

在模型支持方面，本次更新添加了对GPT-4.1系列模型和o4-mini模型的支持。这些新增模型选项出现在Web界面的评估创建器中，为用户提供了更多选择。

Web界面的配置逻辑也进行了优化，现在在设置页面重置默认测试配置时，系统会正确清除原有配置，避免了配置残留导致的问题。

技术债务清理与稳定性提升

开发团队对测试环境进行了清理，改进了测试的setup和teardown流程，消除了测试间的副作用影响。这一改进虽然对终端用户不可见，但显著提升了测试的可靠性和一致性。

依赖项也进行了例行更新，包括升级AWS Bedrock Runtime客户端和OpenAI SDK到最新版本，确保与各云服务API的兼容性。

对开发者的建议

对于使用promptfoo进行医疗AI系统评估的团队，建议重点关注新增的医疗插件功能。这些专用工具能够帮助发现系统在医疗场景下的特定偏差问题。

在升级到新版本时，注意检查原有的红队测试配置是否与新版本兼容，特别是涉及到报告生成的自动化流程时，需要适应CSV格式的变化。

随着模型选项的不断增加，建议团队定期评估不同模型在特定任务上的表现差异，promptfoo提供的标准化评估框架可以大大简化这一过程。

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

最新内容推荐

AcFunDown视频下载工具完全指南还在为数字笔记抓狂？这款开源神器让手写批注效率提升300%Windows笔记本电池健康管理全指南：从根源解决电池损耗问题 gmx_MMPBSA分子间相互作用索引错误的深度诊断与解决 Axure RP 11 本地化方案：Mac中文界面优化与原型设计工具汉化全指南如何高效获取教育资源？这款工具让教材下载效率提升80%视频元数据深度编辑：专业技巧与案例网盘直链下载技术解析与应用指南如何用DeepSeek-R1推理模型提升复杂任务解决能力：完整指南 5个突破瓶颈技巧：硬件优化工具让你的电脑性能提升30%

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。