DreamerV3 在 Atari 100k 基准测试中的得分计算方法解析

2025-07-08 22:15:49作者：温艾琴Wonderful

Mastering Diverse Domains through World Models

项目地址：https://gitcode.com/gh_mirrors/dr/dreamerv3

DreamerV3 是一个基于世界模型的强化学习算法，在 Atari 100k 基准测试中表现出色。本文将详细解析其得分计算方法，帮助研究人员正确理解和使用相关数据。

得分计算原理

在 DreamerV3 的 Atari 100k 基准测试中，得分计算并非简单地取最终训练步数的性能值。正确的计算方法如下：

数据采集范围：选取训练步数(xs)在390,000到400,000之间的所有性能值(ys)
种子内平均：对每个独立训练种子，计算上述范围内所有ys值的平均值
跨种子平均：将5个独立种子的平均值再次求平均，得到最终报告分数

常见误区

许多研究人员容易犯以下错误：

仅取最终步数(400,000)的性能值
忽略不同种子间的性能波动
未考虑训练末期的性能稳定性

实际案例分析

以Alien游戏为例：

错误方法：取5个种子的最终值[760,1190,1280,1570,1590]平均得1278
正确方法：应计算每个种子在390k-400k步间所有ys的平均值，再跨种子平均
论文报告值：959

这种差异说明：

模型性能在训练末期可能存在波动
仅看最终值会高估实际平均性能
采用区间平均能更好反映模型的稳定表现

技术意义

这种计算方法具有以下优势：

减少单次评估的随机性影响
反映模型在训练末期的稳定性能
提供更可靠的算法比较基准
符合强化学习评估的最佳实践

实施建议

对于希望复现或比较结果的研究人员：

确保使用完整的评估轨迹数据
采用相同的评估窗口(390k-400k步)
运行足够数量的随机种子(推荐≥5个)
报告平均值的同时，建议提供标准差或置信区间

理解这些评分细节对于正确评估模型性能、进行公平比较以及复现研究结果都至关重要。

Mastering Diverse Domains through World Models

项目地址：https://gitcode.com/gh_mirrors/dr/dreamerv3

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息

ohos_react_native

React Native鸿蒙化仓库