Promptfoo 0.103.16版本发布:增强评估能力与安全测试功能
Promptfoo是一个专注于提示工程和语言模型评估的开源工具,它帮助开发者系统地测试、比较和优化各种AI模型的提示词效果。最新发布的0.103.16版本带来了一系列重要更新,特别是在评估指标扩展和安全测试方面有显著增强。
核心功能增强
本次更新最值得关注的是评估系统的改进。新版本引入了对"推理努力度"和"使用令牌数"的支持,这两个指标对于衡量语言模型响应的质量和成本效益至关重要。推理努力度可以帮助开发者了解模型生成响应时的思考深度,而令牌数统计则直接关系到API调用成本。
在安全测试方面,新增了RAG(检索增强生成)全文档提取插件,这是针对知识库系统的一项重要安全测试工具。它可以模拟攻击者尝试通过精心设计的提示词从系统中提取完整文档内容的行为,帮助开发者评估系统的信息泄露风险。
多格式支持与提供商标配
0.103.16版本增加了对JSONL文件格式的测试用例支持,这使得开发者可以更方便地管理大量测试数据。JSONL格式特别适合处理大规模数据集,每行一个独立的JSON对象,既保持了可读性又便于流式处理。
在模型提供商支持方面,新版本改进了Google提供商的实现,更好地适配最新的Gemini模型系列。同时新增了对Anthropic引用功能的支持,使得在使用Anthropic模型时能够更好地追踪和验证信息来源。
安全测试体系完善
安全测试功能在此版本中得到了多项增强。除了新增的RAG全文档提取插件外,还改进了策略在意图层面的运行机制,使得安全测试更加精准。同时加入了运行分析功能,帮助开发者更好地理解测试结果和潜在风险。
开发者体验优化
在开发者体验方面,新版本进行了多项改进:简化了package.json配置,排除了测试文件从npm包中发布,减少了不必要的依赖。这些改动使得项目结构更加清晰,安装包体积更小。开发环境也升级到了Node.js v22和Python 3.13,保持与最新技术的同步。
总结
Promptfoo 0.103.16版本在评估能力、安全测试和开发者体验方面都有显著提升。特别是新增的推理努力度指标和RAG安全测试插件,为构建更可靠、更安全的AI应用提供了有力工具。这些改进使得Promptfoo在提示工程和模型评估领域的地位更加稳固,为开发者提供了更全面的解决方案。
GLM-5智谱 AI 正式发布 GLM-5,旨在应对复杂系统工程和长时域智能体任务。Jinja00
GLM-5-w4a8GLM-5-w4a8基于混合专家架构,专为复杂系统工程与长周期智能体任务设计。支持单/多节点部署,适配Atlas 800T A3,采用w4a8量化技术,结合vLLM推理优化,高效平衡性能与精度,助力智能应用开发Jinja00- QQwen3.5-397B-A17BQwen3.5 实现了重大飞跃,整合了多模态学习、架构效率、强化学习规模以及全球可访问性等方面的突破性进展,旨在为开发者和企业赋予前所未有的能力与效率。Jinja00
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
MiniMax-M2.5MiniMax-M2.5开源模型,经数十万复杂环境强化训练,在代码生成、工具调用、办公自动化等经济价值任务中表现卓越。SWE-Bench Verified得分80.2%,Multi-SWE-Bench达51.3%,BrowseComp获76.3%。推理速度比M2.1快37%,与Claude Opus 4.6相当,每小时仅需0.3-1美元,成本仅为同类模型1/10-1/20,为智能应用开发提供高效经济选择。【此简介由AI生成】Python00
ruoyi-plus-soybeanRuoYi-Plus-Soybean 是一个现代化的企业级多租户管理系统,它结合了 RuoYi-Vue-Plus 的强大后端功能和 Soybean Admin 的现代化前端特性,为开发者提供了完整的企业管理解决方案。Vue06- RRing-2.5-1TRing-2.5-1T:全球首个基于混合线性注意力架构的开源万亿参数思考模型。Python00
Qwen3.5Qwen3.5 昇腾 vLLM 部署教程。Qwen3.5 是 Qwen 系列最新的旗舰多模态模型,采用 MoE(混合专家)架构,在保持强大模型能力的同时显著降低了推理成本。00