Auto Code Rover项目SWE-bench测试结果解析

2025-06-27 15:44:52作者：郦嵘贵Just

A project structure aware autonomous software engineer aiming for autonomous program improvement. Resolved 37.3% tasks (pass@1) in SWE-bench lite and 46.2% tasks (pass@1) in SWE-bench verified with each task costs less than $0.7.

项目地址：https://gitcode.com/GitHub_Trending/au/auto-code-rover

Auto Code Rover作为一款基于人工智能的代码自动修复工具，其性能评估采用了SWE-bench标准测试集。该项目在GitHub仓库中公开了详细的测试结果数据，这些数据对于理解工具的实际表现具有重要意义。

测试结果主要包含两种关键文件格式：final_report.json和*.traj文件。final_report.json作为测试结果的汇总报告，其中"resolved"字段明确记录了工具在SWE-bench lite测试集中成功解决的问题实例数量。这个指标直接反映了工具的核心修复能力。

*.traj文件则更为详细地记录了整个修复过程的行为轨迹。这些文件不仅包含了与GPT-4的完整对话历史，还详细记录了SWE-agent执行的所有操作步骤。特别值得注意的是，在traj文件的"info"字段中，包含了工具最终生成的补丁代码，这些补丁以标准的git diff格式呈现，便于开发者进行审查和验证。

与Devin项目的测试结果展示方式不同，Auto Code Rover采用了更为综合的数据呈现方法。Devin将测试结果按照通过/失败分类存放在不同目录中，而Auto Code Rover则通过结构化的JSON报告和详细的操作轨迹文件，为研究人员提供了更全面的分析维度。这种数据组织方式不仅能够展示最终的测试结果，还能让研究者深入了解工具在解决问题时的具体思路和操作流程。

对于希望评估或比较不同代码修复工具性能的研究者来说，理解这些测试结果的格式和含义至关重要。Auto Code Rover采用的这种详细记录方式，为后续的性能分析和算法改进提供了丰富的数据支持。

auto-code-rover

项目地址：https://gitcode.com/GitHub_Trending/au/auto-code-rover

登录后查看全文