首页
/ Promptfoo 0.103.16版本发布:增强评估能力与安全测试功能

Promptfoo 0.103.16版本发布:增强评估能力与安全测试功能

2025-06-09 07:18:47作者:范靓好Udolf

Promptfoo是一个专注于提示工程和语言模型评估的开源工具,它帮助开发者系统地测试、比较和优化各种AI模型的提示词效果。最新发布的0.103.16版本带来了一系列重要更新,特别是在评估指标扩展和安全测试方面有显著增强。

核心功能增强

本次更新最值得关注的是评估系统的改进。新版本引入了对"推理努力度"和"使用令牌数"的支持,这两个指标对于衡量语言模型响应的质量和成本效益至关重要。推理努力度可以帮助开发者了解模型生成响应时的思考深度,而令牌数统计则直接关系到API调用成本。

在安全测试方面,新增了RAG(检索增强生成)全文档提取插件,这是针对知识库系统的一项重要安全测试工具。它可以模拟攻击者尝试通过精心设计的提示词从系统中提取完整文档内容的行为,帮助开发者评估系统的信息泄露风险。

多格式支持与提供商标配

0.103.16版本增加了对JSONL文件格式的测试用例支持,这使得开发者可以更方便地管理大量测试数据。JSONL格式特别适合处理大规模数据集,每行一个独立的JSON对象,既保持了可读性又便于流式处理。

在模型提供商支持方面,新版本改进了Google提供商的实现,更好地适配最新的Gemini模型系列。同时新增了对Anthropic引用功能的支持,使得在使用Anthropic模型时能够更好地追踪和验证信息来源。

安全测试体系完善

安全测试功能在此版本中得到了多项增强。除了新增的RAG全文档提取插件外,还改进了策略在意图层面的运行机制,使得安全测试更加精准。同时加入了运行分析功能,帮助开发者更好地理解测试结果和潜在风险。

开发者体验优化

在开发者体验方面,新版本进行了多项改进:简化了package.json配置,排除了测试文件从npm包中发布,减少了不必要的依赖。这些改动使得项目结构更加清晰,安装包体积更小。开发环境也升级到了Node.js v22和Python 3.13,保持与最新技术的同步。

总结

Promptfoo 0.103.16版本在评估能力、安全测试和开发者体验方面都有显著提升。特别是新增的推理努力度指标和RAG安全测试插件,为构建更可靠、更安全的AI应用提供了有力工具。这些改进使得Promptfoo在提示工程和模型评估领域的地位更加稳固,为开发者提供了更全面的解决方案。

登录后查看全文
热门项目推荐
相关项目推荐

项目优选

收起
kernelkernel
deepin linux kernel
C
22
6
docsdocs
OpenHarmony documentation | OpenHarmony开发者文档
Dockerfile
203
2.18 K
ohos_react_nativeohos_react_native
React Native鸿蒙化仓库
C++
208
285
pytorchpytorch
Ascend Extension for PyTorch
Python
62
94
RuoYi-Vue3RuoYi-Vue3
🎉 (RuoYi)官方仓库 基于SpringBoot,Spring Security,JWT,Vue3 & Vite、Element Plus 的前后端分离权限管理系统
Vue
977
575
nop-entropynop-entropy
Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台,包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分,采用java语言实现,可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用
Java
9
1
ops-mathops-math
本项目是CANN提供的数学类基础计算算子库,实现网络在NPU上加速计算。
C++
550
84
openHiTLSopenHiTLS
旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件,通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求,让密码技术应用更简单,同时探索后量子等先进算法创新实践,构建密码前沿技术底座!
C
1.02 K
399
communitycommunity
本项目是CANN开源社区的核心管理仓库,包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息
393
27
MateChatMateChat
前端智能化场景解决方案UI库,轻松构建你的AI应用,我们将持续完善更新,欢迎你的使用与建议。 官网地址:https://matechat.gitcode.com
1.2 K
133