Promptfoo 0.103.16版本发布：增强评估能力与安全测试功能

2025-06-09 20:36:13作者：范靓好Udolf

Promptfoo是一个专注于提示工程和语言模型评估的开源工具，它帮助开发者系统地测试、比较和优化各种AI模型的提示词效果。最新发布的0.103.16版本带来了一系列重要更新，特别是在评估指标扩展和安全测试方面有显著增强。

核心功能增强

本次更新最值得关注的是评估系统的改进。新版本引入了对"推理努力度"和"使用令牌数"的支持，这两个指标对于衡量语言模型响应的质量和成本效益至关重要。推理努力度可以帮助开发者了解模型生成响应时的思考深度，而令牌数统计则直接关系到API调用成本。

在安全测试方面，新增了RAG(检索增强生成)全文档提取插件，这是针对知识库系统的一项重要安全测试工具。它可以模拟攻击者尝试通过精心设计的提示词从系统中提取完整文档内容的行为，帮助开发者评估系统的信息泄露风险。

0.103.16版本增加了对JSONL文件格式的测试用例支持，这使得开发者可以更方便地管理大量测试数据。JSONL格式特别适合处理大规模数据集，每行一个独立的JSON对象，既保持了可读性又便于流式处理。

在模型提供商支持方面，新版本改进了Google提供商的实现，更好地适配最新的Gemini模型系列。同时新增了对Anthropic引用功能的支持，使得在使用Anthropic模型时能够更好地追踪和验证信息来源。

安全测试功能在此版本中得到了多项增强。除了新增的RAG全文档提取插件外，还改进了策略在意图层面的运行机制，使得安全测试更加精准。同时加入了运行分析功能，帮助开发者更好地理解测试结果和潜在风险。

在开发者体验方面，新版本进行了多项改进：简化了package.json配置，排除了测试文件从npm包中发布，减少了不必要的依赖。这些改动使得项目结构更加清晰，安装包体积更小。开发环境也升级到了Node.js v22和Python 3.13，保持与最新技术的同步。

Promptfoo 0.103.16版本在评估能力、安全测试和开发者体验方面都有显著提升。特别是新增的推理努力度指标和RAG安全测试插件，为构建更可靠、更安全的AI应用提供了有力工具。这些改进使得Promptfoo在提示工程和模型评估领域的地位更加稳固，为开发者提供了更全面的解决方案。

登录后查看全文