FlagEmbedding项目中调整HuggingFace模型缓存路径的方法

2025-05-25 03:05:54作者：丁柯新Fawn

在使用FlagEmbedding项目中的BGEM3FlagModel时，模型文件默认会下载到用户目录下的.cache文件夹中。对于Windows系统用户，这通常位于C盘，可能导致系统盘空间不足的问题。本文将详细介绍如何灵活配置HuggingFace模型的缓存路径。

默认缓存路径解析

HuggingFace的transformers库默认会将下载的预训练模型存储在用户主目录的.cache文件夹中。具体路径为：

Windows: C:\Users\<用户名>\.cache\huggingface\hub
Linux/macOS: ~/.cache/huggingface/hub

这种默认设置虽然方便，但当模型文件较大时（如BGEM3FlagModel这类大模型），会快速占用系统盘空间，影响系统性能。

修改缓存路径的方法

Python提供了简单的方式来修改这一默认设置。在代码中导入模型前，只需设置环境变量HF_HUB_CACHE即可：

import os
os.environ['HF_HUB_CACHE'] = "D:/path/to/your/custom_cache"  # 替换为你想要的路径

from FlagEmbedding import BGEM3FlagModel

路径设置的最佳实践

选择合适的位置：建议将缓存路径设置在空间充足的非系统分区
路径格式：Windows用户注意使用正斜杠(/)或双反斜杠(\)
权限设置：确保程序有权限读写目标目录
共享缓存：在多项目环境中，可以设置统一缓存路径避免重复下载

其他相关环境变量

除了HF_HUB_CACHE外，HuggingFace还支持以下相关配置：

TRANSFORMERS_CACHE: 专用于transformers库的缓存路径
HF_DATASETS_CACHE: 数据集缓存路径
HF_HOME: HuggingFace相关文件的根目录

总结

通过合理配置模型缓存路径，不仅可以解决系统盘空间不足的问题，还能更好地管理机器学习项目的资源文件。建议在项目初始化阶段就设置好这些路径参数，避免后期迁移带来的麻烦。对于FlagEmbedding这类需要大模型支持的项目，这一设置尤为重要。

FlagEmbedding

Dense Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781