promptfoo 0.114.3版本发布：音频变量支持与多项优化

2025-06-09 19:41:49作者：薛曦旖Francesca

promptfoo是一个开源的提示工程评估框架，它帮助开发者系统地测试和比较不同AI模型的输出质量。通过定义测试用例、评估标准和自动化流程，promptfoo使开发者能够量化AI系统的表现，确保提示词的质量和一致性。

核心功能增强

本次0.114.3版本在音频处理方面做出了重要改进。现在系统能够直接在结果表格中显示音频文件变量，这对于处理语音识别、音频生成等场景的开发者来说尤为实用。当测试用例中包含音频输入或输出时，开发者可以更直观地查看和比较这些多媒体内容。

在红队测试（red team testing）方面，应用定义流程得到了优化，能够收集更全面的信息。这使得安全测试更加系统化，帮助开发者更全面地评估AI系统在面对对抗性输入时的表现。

关键问题修复

本次更新修复了几个影响用户体验的问题。其中最重要的是解决了当变量使用"file://"前缀引用文件内容时，文件内容无法正确加载的问题。这个修复确保了文件引用机制的可靠性，特别是在处理大型配置文件或外部数据时。

另一个重要修复是针对模型评分断言提供程序（model-graded assertion providers）的解析问题。现在系统能够正确地从providerMap中解析这些提供程序，确保了评估标准的准确应用。

测试覆盖与质量保证

开发团队在本版本中显著增加了测试覆盖率，特别是针对以下几个关键模块：

全局配置账户管理模块
配置管理工具
前端页面组件
变量渲染功能
红队测试插件基础架构
Crescendo提供程序及其提示模板

这些新增的单元测试和Vitest覆盖率提升，为系统的稳定性和可靠性提供了更强有力的保障。

文档与用户体验改进

文档方面，本次更新增加了多个实用内容：

新增了工作公告板功能
在侧边栏添加了自定义策略指引
为故障排除部分增加了原生构建指南
为新闻页面添加了锚点链接
统一了整个站点的文档格式

这些改进使得新用户能够更快上手，同时也为高级用户提供了更全面的参考资源。

技术优化与依赖更新

在技术优化方面，开发团队进行了多项改进：

修复了readline测试中的句柄泄露问题
为OpenAI API的response_format添加了外部文件加载支持
确保红队测试运行时生成唯一的文件
为生成的红队配置文件添加了元数据
将OpenAI客户端库从4.103.0升级到5.0.1
改进了暗黑模式下评估单元格的高亮样式

这些优化不仅提升了系统的稳定性，也为开发者提供了更好的开发体验。

总结

promptfoo 0.114.3版本在功能、稳定性和用户体验方面都做出了显著改进。特别是对音频处理的支持和红队测试流程的优化，使得这个工具在评估AI系统时更加全面和可靠。持续增加的测试覆盖率和文档改进，也体现了项目对质量的重视。对于使用promptfoo进行AI系统评估的开发者来说，这个版本值得升级。

登录后查看全文