FlagEmbedding项目中的模型文件格式转换指南

2025-05-24 17:40:09作者：秋泉律Samson

在FlagEmbedding项目中，用户在使用BGE-M3模型进行微调后，经常会遇到模型文件格式转换的需求。本文将详细介绍如何将微调后生成的model.safetensors文件转换为PyTorch传统的pytorch_model.bin格式，帮助开发者更好地管理和使用模型文件。

模型文件格式的背景知识

在深度学习领域，模型权重通常以不同的文件格式保存。safetensors是Hugging Face推出的一种新型安全序列化格式，相比传统的PyTorch二进制格式(pytorch_model.bin)，它具有以下优势：

更快的加载速度
更安全，防止恶意代码执行
跨框架兼容性更好

然而，某些特定场景下，开发者可能需要使用传统的PyTorch二进制格式，例如：

与某些旧版工具链兼容
特定部署环境的要求
个人偏好或团队规范

转换方法详解

使用Hugging Face的Transformers库可以轻松完成这种转换。以下是具体步骤：

首先加载已经微调好的模型：

from transformers import AutoModel
model = AutoModel.from_pretrained('your_model_directory')

然后使用save_pretrained方法保存为传统格式：

model.save_pretrained('new_save_directory', safe_serialization=False)

关键参数说明：

safe_serialization=False：禁用安全序列化，即使用传统PyTorch格式
保存目录会自动创建pytorch_model.bin文件

注意事项

转换过程会保留完整的模型结构和权重信息，不会影响模型性能
转换后的文件大小可能会有所不同，这是正常现象
建议在转换前检查原始模型的完整性
转换过程需要足够的磁盘空间，特别是大型模型
某些特殊模型结构可能需要额外的处理步骤

实际应用建议

在实际项目中，建议开发者：

根据具体需求选择合适的文件格式
保持格式一致性，便于团队协作
文档化记录模型格式转换的过程
考虑建立自动化流程处理格式转换

通过掌握这些转换技巧，开发者可以更灵活地在FlagEmbedding项目中使用BGE-M3等模型，满足不同场景下的需求。

FlagEmbedding

Dense Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

Nop Platform 2.0是基于可逆计算理论实现的采用面向语言编程范式的新一代低代码开发平台，包含基于全新原理从零开始研发的GraphQL引擎、ORM引擎、工作流引擎、报表引擎、规则引擎、批处理引引擎等完整设计。nop-entropy是它的后端部分，采用java语言实现，可选择集成Spring框架或者Quarkus框架。中小企业可以免费商用

Java

leetcode

🔥LeetCode solutions in any programming language | 多种编程语言实现 LeetCode、《剑指 Offer（第 2 版）》、《程序员面试金典（第 6 版）》题解

Java

RuoYi-Vue3

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

Vue

1.37 K

781