promptfoo项目0.114.6版本发布:强化红队测试与医疗插件支持
promptfoo是一个专注于提示工程和AI模型评估的开源工具,它帮助开发者系统地测试、比较和优化各种AI模型的提示效果。该项目通过提供标准化的评估框架,使团队能够量化不同提示策略的效果差异。
本次发布的0.114.6版本主要围绕红队测试功能进行了多项增强,同时优化了Web界面的用户体验。作为一次增量更新,它在前一版本基础上进一步完善了核心功能。
红队测试功能增强
本次更新在红队测试模块中新增了医疗领域专用插件,专门用于测试医疗场景下的锚定偏差(anchoring bias)。锚定偏差是医疗决策中常见的一种认知偏差,指医生在诊断时过度依赖最初获得的信息而忽视后续证据的现象。通过这一插件,开发者可以模拟医疗场景下的决策过程,评估AI系统是否会产生类似的认知偏差。
红队测试报告输出功能也得到了改进,现在生成的CSV报告中会包含插件ID和策略ID信息,这使得测试结果的分析和追踪更加方便。此外,命令行工具新增了target选项,允许用户更精确地指定测试目标。
模型支持与配置优化
在模型支持方面,本次更新添加了对GPT-4.1系列模型和o4-mini模型的支持。这些新增模型选项出现在Web界面的评估创建器中,为用户提供了更多选择。
Web界面的配置逻辑也进行了优化,现在在设置页面重置默认测试配置时,系统会正确清除原有配置,避免了配置残留导致的问题。
技术债务清理与稳定性提升
开发团队对测试环境进行了清理,改进了测试的setup和teardown流程,消除了测试间的副作用影响。这一改进虽然对终端用户不可见,但显著提升了测试的可靠性和一致性。
依赖项也进行了例行更新,包括升级AWS Bedrock Runtime客户端和OpenAI SDK到最新版本,确保与各云服务API的兼容性。
对开发者的建议
对于使用promptfoo进行医疗AI系统评估的团队,建议重点关注新增的医疗插件功能。这些专用工具能够帮助发现系统在医疗场景下的特定偏差问题。
在升级到新版本时,注意检查原有的红队测试配置是否与新版本兼容,特别是涉及到报告生成的自动化流程时,需要适应CSV格式的变化。
随着模型选项的不断增加,建议团队定期评估不同模型在特定任务上的表现差异,promptfoo提供的标准化评估框架可以大大简化这一过程。
atomcodeClaude Code 的开源替代方案。连接任意大模型,编辑代码,运行命令,自动验证 — 全自动执行。用 Rust 构建,极致性能。 | An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get StartedRust0137- DDeepSeek-V4-ProDeepSeek-V4-Pro(总参数 1.6 万亿,激活 49B)面向复杂推理和高级编程任务,在代码竞赛、数学推理、Agent 工作流等场景表现优异,性能接近国际前沿闭源模型。Python00
GLM-5.1GLM-5.1是智谱迄今最智能的旗舰模型,也是目前全球最强的开源模型。GLM-5.1大大提高了代码能力,在完成长程任务方面提升尤为显著。和此前分钟级交互的模型不同,它能够在一次任务中独立、持续工作超过8小时,期间自主规划、执行、自我进化,最终交付完整的工程级成果。Jinja00
MiniCPM-V-4.6这是 MiniCPM-V 系列有史以来效率与性能平衡最佳的模型。它以仅 1.3B 的参数规模,实现了性能与效率的双重突破,在全球同尺寸模型中登顶,全面超越了阿里 Qwen3.5-0.8B 与谷歌 Gemma4-E2B-it。Jinja00
MiniMax-M2.7MiniMax-M2.7 是我们首个深度参与自身进化过程的模型。M2.7 具备构建复杂智能体应用框架的能力,能够借助智能体团队、复杂技能以及动态工具搜索,完成高度精细的生产力任务。Python00
MusicFreeDesktop插件化、定制化、无广告的免费音乐播放器TypeScript00