Promptfoo 0.103.16版本发布:增强评估能力与安全测试功能
Promptfoo是一个专注于提示工程和语言模型评估的开源工具,它帮助开发者系统地测试、比较和优化各种AI模型的提示词效果。最新发布的0.103.16版本带来了一系列重要更新,特别是在评估指标扩展和安全测试方面有显著增强。
核心功能增强
本次更新最值得关注的是评估系统的改进。新版本引入了对"推理努力度"和"使用令牌数"的支持,这两个指标对于衡量语言模型响应的质量和成本效益至关重要。推理努力度可以帮助开发者了解模型生成响应时的思考深度,而令牌数统计则直接关系到API调用成本。
在安全测试方面,新增了RAG(检索增强生成)全文档提取插件,这是针对知识库系统的一项重要安全测试工具。它可以模拟攻击者尝试通过精心设计的提示词从系统中提取完整文档内容的行为,帮助开发者评估系统的信息泄露风险。
多格式支持与提供商标配
0.103.16版本增加了对JSONL文件格式的测试用例支持,这使得开发者可以更方便地管理大量测试数据。JSONL格式特别适合处理大规模数据集,每行一个独立的JSON对象,既保持了可读性又便于流式处理。
在模型提供商支持方面,新版本改进了Google提供商的实现,更好地适配最新的Gemini模型系列。同时新增了对Anthropic引用功能的支持,使得在使用Anthropic模型时能够更好地追踪和验证信息来源。
安全测试体系完善
安全测试功能在此版本中得到了多项增强。除了新增的RAG全文档提取插件外,还改进了策略在意图层面的运行机制,使得安全测试更加精准。同时加入了运行分析功能,帮助开发者更好地理解测试结果和潜在风险。
开发者体验优化
在开发者体验方面,新版本进行了多项改进:简化了package.json配置,排除了测试文件从npm包中发布,减少了不必要的依赖。这些改动使得项目结构更加清晰,安装包体积更小。开发环境也升级到了Node.js v22和Python 3.13,保持与最新技术的同步。
总结
Promptfoo 0.103.16版本在评估能力、安全测试和开发者体验方面都有显著提升。特别是新增的推理努力度指标和RAG安全测试插件,为构建更可靠、更安全的AI应用提供了有力工具。这些改进使得Promptfoo在提示工程和模型评估领域的地位更加稳固,为开发者提供了更全面的解决方案。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
Baichuan-M3-235BBaichuan-M3 是百川智能推出的新一代医疗增强型大型语言模型,是继 Baichuan-M2 之后的又一重要里程碑。Python00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00