SimpleScaling项目中的AIME2024评测性能差异分析

2025-06-03 07:39:10作者：管翌锬

s1: Simple test-time scaling

项目地址：https://gitcode.com/gh_mirrors/s1/s1

在开源项目SimpleScaling的s1.1-32B模型评测过程中，开发者们发现了一个值得关注的现象：模型在AIME2024数学竞赛题评测中的表现会因评测条件不同而产生显著差异。本文将深入分析这一现象背后的技术原因，为研究者提供有价值的参考。

评测表现差异现象

原始论文报告显示，s1.1-32B模型在AIME2024评测中取得了56.7%的准确率。然而，有开发者使用自己的评测脚本进行测试时，在相同模型权重下获得了63.33%的更高准确率。这一差异引起了技术社区的广泛关注。

关键影响因素分析

经过深入探讨，发现以下几个关键因素会显著影响模型在AIME2024评测中的表现：

系统提示词设计：模型对系统提示词(content)非常敏感。使用"你是由阿里巴巴云创建的Qwen，你是一个乐于助人的助手"这类与训练时一致的提示词，能够获得最佳表现。
计算精度选择：评测时使用bf16精度比fp32精度能带来约3.3%的性能提升。这可能与训练时采用的精度设置有关，bf16更接近训练条件。
评测框架差异：使用不同推理框架(如transformers与vLLM)会导致评测结果出现波动，这与框架内部的确定性实现有关。

技术建议

基于这些发现，我们向研究者提出以下建议：

评测时应保持与训练时相同的系统提示词设计，避免因提示词差异导致性能波动。
优先使用bf16精度进行评测，这既能提高性能，也更接近实际训练条件。
在论文报告中应明确说明评测使用的精度和框架，确保结果可复现。
对于关键评测，建议进行多次评测取平均值，减少框架随机性带来的影响。

结论

这一案例生动展示了大型语言模型评测中的诸多微妙因素。即使是相同的模型权重，不同的评测设置也可能导致显著不同的结果。这提醒研究者在进行模型对比和结果报告时，必须严格控制评测条件，确保公平性和可复现性。同时，也反映了当前大模型评测生态中存在的挑战，需要社区共同努力建立更标准化的评测规范。

s1: Simple test-time scaling

项目地址：https://gitcode.com/gh_mirrors/s1/s1

登录后查看全文

热门内容推荐

1 编程实践项目探索指南：从零构建技术能力体系 2 技术解构式学习：从0到1构建你的编程知识体系 3 构建自己的技术世界：build-your-own-x项目的实践探索指南 4 解锁编程技能的实践之旅：从零构建你的技术世界 5 技术实践探索：从零开始构建核心系统的实践指南 6 亲手锻造技术引擎：从0到1构建核心系统的实践指南

项目优选

收起

deepin linux kernel

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

AI 将任意文档转换为精美可编辑的 PPTX 演示文稿 — 无需设计基础 | 包含 15 个案例、229 页内容

Cangjie-Examples

本仓将收集和展示高质量的仓颉示例代码，欢迎大家投稿，让全世界看到您的妙趣设计，也让更多人通过您的编码理解和喜爱仓颉语言。