promptfoo项目0.111.0版本发布：强化AI评估与安全测试能力

2025-06-09 01:00:47作者：晏闻田Solitary

promptfoo是一个专注于AI模型评估和测试的开源框架，它帮助开发者系统地评估和比较不同AI模型的输出质量。通过提供标准化的测试流程、丰富的评估指标和直观的可视化界面，promptfoo已经成为AI应用开发中不可或缺的工具。

核心功能升级

本次0.111.0版本带来了多项重要改进，主要集中在AI评估能力和安全测试方面：

1. 评估模型升级至GPT-4.1

项目将OpenAI的评分模型从GPT-4升级到了GPT-4.1版本。这一更新意味着：

评估结果将更加准确可靠
能够处理更复杂的评分标准
对细微差别的识别能力更强

2. 安全测试插件扩展

安全测试是评估AI系统安全性的重要手段，新版本增加了两个关键插件：

内容边界测试插件：

专门测试AI系统是否会回答不应该回答的问题
帮助识别模型在特定话题上的边界控制能力
是构建安全AI系统的重要测试工具

输入安全测试插件：

专注于潜在恶意输入测试
评估模型对异常输入的识别能力
防止模型生成可能包含问题的代码

开发者体验优化

1. 评估标准灵活性增强

新版本改进了LLM Rubric的prompt渲染机制，现在支持任意对象类型作为输入参数。这一改进使得：

开发者可以构建更复杂的评估标准
评估prompt可以动态适应不同数据结构
提高了评估系统的灵活性和可扩展性

2. 用户界面改进

Web界面新增了行锚点链接功能，允许用户：

直接链接到特定测试结果
快速分享关键测试案例
提升团队协作效率

技术架构优化

1. 配置管理改进

安全测试配置现在默认输出到输入配置相同的目录，这一改变：

简化了配置文件管理
减少了路径配置错误
使项目结构更加清晰

2. 模型支持扩展

新增了对Google Gemini 2.5 Flash模型的支持，为开发者提供了：

更快速的模型选择
更经济的评估选项
多样化的模型比较能力

3. 输入验证强化

项目全面采用了ajv格式验证，这一改进：

提高了配置文件的健壮性
减少了因配置错误导致的问题
提供了更清晰的错误提示

安全与稳定性提升

新版本增加了多项安全相关改进：

对安全测试插件增加了远程生成能力标记
为没有测试用例的安全配置添加了警告提示
提高了命令行工具的稳定性

总结

promptfoo 0.111.0版本通过升级评估模型、扩展安全测试能力、优化开发者体验和增强系统稳定性，为AI系统评估提供了更加强大和可靠的工具。这些改进特别有助于：

构建更安全的AI应用
进行更全面的模型评估
提高开发团队的工作效率

对于正在开发或评估AI系统的团队来说，升级到这个版本将获得更准确的评估结果和更丰富的测试能力，是提升AI系统质量的重要一步。

登录后查看全文

promptfoo项目0.111.0版本发布：强化AI评估与安全测试能力

核心功能升级

1. 评估模型升级至GPT-4.1

2. 安全测试插件扩展

开发者体验优化

1. 评估标准灵活性增强

2. 用户界面改进

技术架构优化

1. 配置管理改进

2. 模型支持扩展

3. 输入验证强化

安全与稳定性提升

总结

热门内容推荐

最新内容推荐

项目优选

promptfoo项目0.111.0版本发布：强化AI评估与安全测试能力

核心功能升级

1. 评估模型升级至GPT-4.1

2. 安全测试插件扩展

开发者体验优化

1. 评估标准灵活性增强

2. 用户界面改进

技术架构优化

1. 配置管理改进

2. 模型支持扩展

3. 输入验证强化

安全与稳定性提升

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选