在Lit-GPT项目中指定Hugging Face数据集缓存路径的技巧

2025-05-19 13:10:52作者：秋阔奎Evelyn

Hackable implementation of state-of-the-art open-source LLMs based on nanoGPT. Supports flash attention, 4-bit and 8-bit quantization, LoRA and LLaMA-Adapter fine-tuning, pre-training. Apache 2.0-licensed.

项目地址：https://gitcode.com/gh_mirrors/li/lit-gpt

在使用Lit-GPT项目进行大语言模型预训练时，处理OpenWebText数据集是一个常见需求。本文将详细介绍如何正确配置Hugging Face相关缓存路径，确保数据集下载到指定位置。

缓存路径配置的重要性

当使用Hugging Face生态系统下载数据集或模型时，系统默认会将数据缓存到用户主目录下的.cache文件夹中。但在实际生产环境中，我们往往需要：

将大型数据集存储到特定的大容量存储设备
在多用户系统中隔离不同用户的缓存
在容器化环境中控制数据存储位置

环境变量配置方案

通过设置以下环境变量，可以全面控制Hugging Face生态系统的缓存位置：

# 设置Hugging Face主目录
export HF_HOME="/your/custom/path/.cache/huggingface"

# 设置数据集专用缓存路径
export HF_DATASETS_CACHE="/your/custom/path/.cache/huggingface/datasets"

# 设置模型专用缓存路径
export TRANSFORMERS_CACHE="/your/custom/path/.cache/huggingface/models"

实现原理分析

这种配置方式之所以有效，是因为Hugging Face的库在内部会检查这些环境变量：

HF_HOME是基础路径，为其他缓存路径提供默认值
HF_DATASETS_CACHE专门控制datasets库的下载位置
TRANSFORMERS_CACHE控制transformers库的模型缓存

最佳实践建议

持久化配置：建议将这些环境变量写入.bashrc或.zshrc等shell配置文件中
容器化部署：在Docker等容器环境中，确保挂载的卷路径与这些环境变量一致
权限管理：在多用户系统中，确保目标路径有适当的读写权限
存储考量：对于OpenWebText等大型数据集，建议使用SSD或高性能网络存储

通过合理配置这些环境变量，开发者可以更灵活地管理系统资源，优化存储使用效率，特别是在处理像OpenWebText这样的大型数据集时尤为重要。

Hackable implementation of state-of-the-art open-source LLMs based on nanoGPT. Supports flash attention, 4-bit and 8-bit quantization, LoRA and LLaMA-Adapter fine-tuning, pre-training. Apache 2.0-licensed.

项目地址：https://gitcode.com/gh_mirrors/li/lit-gpt

登录后查看全文

项目优选

收起

deepin linux kernel

OpenHarmony documentation | OpenHarmony开发者文档

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

ohos_react_native

React Native鸿蒙化仓库

flutter_flutter

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

本项目是CANN开源社区的核心管理仓库，包含社区的治理章程、治理组织、通用操作指引及流程规范等基础信息