Promptfoo 0.105.0版本发布：增强断言评分与多模型支持

2025-06-09 07:34:17作者：乔或婵

Promptfoo是一个开源的AI提示工程测试框架，它允许开发者对不同的AI模型提示进行系统化的评估和比较。通过定义测试用例和评估标准，Promptfoo帮助开发者优化提示词质量，确保AI应用的稳定性和可靠性。

核心功能增强

自定义断言评分函数

新版本引入了自定义断言评分功能，开发者现在可以编写自己的评分函数来精确评估AI输出。这一特性特别适用于需要复杂评估逻辑的场景，例如：

情感分析结果的评分
特定领域知识的准确性验证
输出格式的合规性检查

评分函数可以直接在配置文件中定义，支持JavaScript语法，提供了极大的灵活性。

多模型配置支持

0.105.0版本改进了模型配置方式，允许在单个配置文件中定义多个模型提供者。这一改进显著简化了多模型比较测试的配置工作，开发者可以：

同时测试不同厂商的模型（如OpenAI、Anthropic等）
比较同一厂商不同版本的模型表现
并行运行测试以提高效率

新增模型支持

本次更新增加了对多个最新AI模型的支持：

Claude 3.7系列：包括Sonnet和Opus版本，Anthropic最新发布的高性能模型
Databricks服务：支持直接调用Databricks平台上的模型服务
Vertex AI上的Claude：扩展了对Google Cloud平台上Claude模型的支持

这些新增模型使Promptfoo能够覆盖更广泛的AI服务生态，满足不同场景下的测试需求。

开发者体验优化

错误处理改进

统一了API错误分类机制，确保错误信息更准确
改进了HTTP提供商的调试输出，包含JSON格式化内容
增强了环境变量处理逻辑，确保变量正确合并和渲染

性能提升

引入SWC编译器加速开发服务器启动
优化了Go工具链版本，确保语法兼容性
移除了HTTP提供商中的内容长度头，提高请求效率

Web界面改进

用户界面方面，0.105.0版本带来了多项体验提升：

暗色模式优化：改进了颜色方案，减少视觉疲劳
分页功能：为评估选择器和报告列表添加分页支持
数据集管理：增强数据集对话框和表格的交互体验
移动端适配：解决了多个响应式设计问题

特别值得一提的是新增的"应用测试与模型测试"切换功能，让用户能够根据测试目标快速切换上下文。

安全增强

为红队测试设置添加了HTTPS选项
加强了文件路径安全检查，特别是当启用严格文件模式时
改进了共享模态框的稳定性，防止无限循环

架构改进

本次发布包含多项底层架构优化：

环境变量管理：集中了环境变量模式定义，提高配置一致性
提供商标识：重构了提供商管理机制，提升扩展性
工具分离：将数据库工具从通用工具中分离，提高代码组织清晰度
日志标准化：用结构化日志替代直接控制台输出

文档完善

伴随功能更新，文档也进行了相应增强：

新增了Vertex AI Gemini 2.0 Flash模型的配置说明
完善了派生指标文档，帮助用户理解复杂评估场景
补充了CSV配置示例，特别是自定义断言的使用方法
更新了媒体资源页面，反映项目最新进展

Promptfoo 0.105.0版本通过这些改进，进一步巩固了其作为AI提示工程测试标准工具的地位，为开发者提供了更强大、更灵活的模型评估能力。无论是进行简单的提示词AB测试，还是复杂的多模型评估，新版本都能提供全面的支持。

登录后查看全文

Promptfoo 0.105.0版本发布：增强断言评分与多模型支持

核心功能增强

自定义断言评分函数

多模型配置支持

新增模型支持

开发者体验优化

错误处理改进

性能提升

Web界面改进

安全增强

架构改进

文档完善

热门内容推荐

最新内容推荐

项目优选

Promptfoo 0.105.0版本发布：增强断言评分与多模型支持

核心功能增强

自定义断言评分函数

多模型配置支持

新增模型支持

开发者体验优化

错误处理改进

性能提升

Web界面改进

安全增强

架构改进

文档完善

相关内容推荐

热门内容推荐

最新内容推荐

项目优选