Axolotl项目中训练日志显示问题的分析与修复

2025-05-25 15:32:23作者：范靓好Udolf

在机器学习模型训练过程中，准确记录训练数据量对于监控训练进度和评估模型性能至关重要。本文将深入分析Axolotl项目中一个关于训练数据统计的显示问题，探讨其产生原因及解决方案。

问题背景

在Axolotl项目（一个用于训练大型语言模型的工具）中，开发者发现训练日志中显示的total_num_tokens数值与实际不符。日志中显示的是样本数量而非预期的token总数，这给训练过程的监控带来了困扰。

问题表现

在训练过程中，系统会输出两个关键统计值：

total_num_tokens：本应显示数据集中的token总数
total_supervised_tokens：显示监督学习的token总数

异常现象是第一个值显示为样本数量（31,666,866），而第二个值正确显示了token总数（16,452,017,178）。

根本原因分析

问题出在数据统计的代码实现上。原始代码使用了以下方式统计token数量：

total_num_tokens = np.sum(
    train_dataset.select_columns("input_ids")
    .to_pandas()
    .apply(lambda x: len(x))
    .values
)

这种方法存在缺陷，因为：

select_columns("input_ids")返回的是仅包含input_ids列的Dataset对象
转换为pandas DataFrame后，每行实际上是一个包含单个元素的Series
apply(lambda x: len(x))计算的是每行的长度（总是1），而非token序列的长度

解决方案

经过分析，提出了两种可行的修复方案：

方案一：直接访问底层数据

total_num_tokens = np.sum(
    train_dataset.data.column("input_ids")
    .to_pandas()
    .apply(lambda x: len(x))
    .values
)

这种方法直接访问底层数据列，确保计算的是token序列的实际长度。

方案二：显式访问DataFrame列

total_num_tokens = np.sum(
    train_dataset.select_columns("input_ids")
    .to_pandas()["input_ids"]  # 显式访问列
    .apply(len)
    .values
)

这种方法通过显式指定DataFrame列名，确保后续操作作用于正确的数据。

验证结果

采用第二种方案后，问题得到解决，日志中正确显示了token总数而非样本数量。

技术启示

这个问题提醒我们：

在处理复杂数据结构时，要明确每一步操作的实际效果
对于关键指标的计算，应该进行交叉验证
日志输出应该包含足够的信息以便于问题诊断

在机器学习项目中，准确的数据统计不仅影响训练监控，还可能影响学习率调度等关键训练参数的设置，因此这类问题的及时修复至关重要。

axolotl

Go ahead and axolotl questions

项目地址：https://gitcode.com/GitHub_Trending/ax/axolotl

登录后查看全文

项目优选

收起

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

458

445

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

Python

151

253