SWE-bench项目预测文件格式规范修正说明

2025-06-28 20:54:16作者：尤峻淳Whitney

在软件开发自动化测试领域，SWE-bench作为一个重要的基准测试框架，其文档准确性直接影响开发者的使用体验。近期项目维护团队发现并修复了一个关于预测文件格式规范的文档错误，本文将详细解析这一技术修正。

问题背景

在SWE-bench框架中，模型预测结果的评估需要遵循特定的JSONL文件格式。原始文档错误地指出预测文件应包含"model"和"prediction"两个关键字段，而实际评估脚本要求的是"model_name_or_path"和"model_prediction"字段。这种文档与实现不一致的情况会导致开发者按照文档规范生成的预测文件无法通过评估流程。

技术细节

正确的预测文件格式规范应包含以下核心字段：

instance_id：标识测试用例的唯一ID
model_name_or_path：用于指定模型名称或路径
model_prediction：包含模型生成的补丁内容字符串

错误格式示例：

{
    "instance_id": "astropy__astropy-14309",
    "model": "your-model-name",
    "prediction": "the patch content as a string"
}

正确格式应为：

{
    "instance_id": "astropy__astropy-14309",
    "model_name_or_path": "your-model-name",
    "model_prediction": "the patch content as a string"
}

影响范围

这一文档错误会影响以下使用场景：

开发者根据文档创建自定义预测文件时
第三方工具集成SWE-bench评估流程时
研究论文中实验复现过程

解决方案

项目维护团队已通过提交e3a6d5b修复了文档错误，确保：

评估指南文档与实现保持一致
常见问题解答部分同步更新
关键字段命名更清晰地表达其用途

最佳实践建议

为避免类似问题，开发者应当：

始终参考项目最新文档
运行评估前检查预测文件格式
使用项目提供的示例文件作为模板
关注项目更新日志中的重大变更

总结

文档与实现的一致性对于开源项目至关重要。SWE-bench团队及时修复这一格式规范差异，体现了项目维护的专业性，也为开发者提供了更可靠的使用体验。建议所有使用者更新到最新文档版本，确保评估流程的顺利进行。

SWE-bench

SWE-Bench: Can Language Models Resolve Real-world Github Issues?

项目地址：https://gitcode.com/GitHub_Trending/sw/SWE-bench

登录后查看全文

项目优选

收起

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openGauss kernel ~ openGauss is an open source relational database management system

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

307

337

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。

harmony-utils 一款功能丰富且极易上手的HarmonyOS工具库，借助众多实用工具类，致力于助力开发者迅速构建鸿蒙应用。其封装的工具涵盖了APP、设备、屏幕、授权、通知、线程间通信、弹框、吐司、生物认证、用户首选项、拍照、相册、扫码、文件、日志，异常捕获、字符、字符串、数字、集合、日期、随机、base64、加密、解密、JSON等一系列的功能和操作，能够满足各种不同的开发需求。

ArkTS

CangjieCommunity

为仓颉编程语言开发者打造活跃、开放、高质量的社区环境

微信开发 Java SDK，支持微信支付、开放平台、公众号、视频号、企业微信、小程序等的后端开发，记得关注公众号及时接受版本更新信息，以及加入微信群进行深入讨论

Java

829

cherry-studio

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

TypeScript

601

SWE-bench项目预测文件格式规范修正说明

问题背景

技术细节

影响范围

解决方案

最佳实践建议

总结

热门内容推荐

最新内容推荐

项目优选

SWE-bench项目预测文件格式规范修正说明

问题背景

技术细节

影响范围

解决方案

最佳实践建议

总结

相关内容推荐

热门内容推荐

最新内容推荐

项目优选