LLMs-from-scratch项目中的上下文长度与数据加载器问题解析

2025-05-01 11:07:13作者：牧宁李

在构建语言模型时，上下文长度（context length）的设置是一个需要仔细考虑的关键参数。本文将以LLMs-from-scratch项目为例，深入探讨上下文长度与数据加载器之间的技术关系。

上下文长度的重要性

上下文长度决定了模型在生成每个token时能够"看到"的前文token数量。在LLMs-from-scratch项目中，默认配置GPT_CONFIG_124M将上下文长度设置为256个token。这个值的选择并非随意，而是基于训练数据的规模做出的合理折中。

数据规模与上下文长度的关系

当尝试将上下文长度增加到1024时，项目中的验证数据加载器（val_loader）会出现加载失败的情况。这种现象的根本原因在于：

项目使用的训练数据总token数仅为5145个
默认训练集比例为0.9（即90%用于训练，10%用于验证）
验证集token数 = 5145 × 0.1 = 514.5
上下文长度1024 > 514.5，导致无法构建完整的验证批次

解决方案与最佳实践

针对这一问题，项目作者提出了几种解决方案：

降低上下文长度：将ctx_len从1024改回256，这是最直接的解决方案
调整训练/验证比例：将train_ratio从0.9降低到0.8，增加验证集token数
添加数据填充：技术上更完善的解决方案是添加padding，但受限于书籍篇幅未实现

项目还新增了检查机制，在代码中加入了以下验证：

if total_tokens * (train_ratio) < GPT_CONFIG_124M["ctx_len"]:
    print("训练数据不足警告...")

if total_tokens * (1-train_ratio) < GPT_CONFIG_124M["ctx_len"]:
    print("验证数据不足警告...")

技术启示

这一案例给我们带来几个重要启示：

数据规模与模型参数的匹配：在设计模型架构时，必须考虑可用数据的规模
验证集的重要性：不能只关注训练集，验证集也需要足够的样本
工程实践中的权衡：在实际项目中，常常需要在理论最优和工程可实现性之间做出权衡

对于初学者而言，理解这些参数间的相互关系，有助于更好地设计和调试自己的语言模型项目。

LLMs-from-scratch

从零开始逐步指导开发者构建自己的大型语言模型（LLM），旨在提供详细的步骤和原理说明，帮助用户深入理解并实践LLM的开发过程。

项目地址：https://gitcode.com/GitHub_Trending/ll/LLMs-from-scratch

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

178

ops-math

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

410

130