FlagEmbedding项目中BGE-EN-ICL模型的训练参数解析

2025-05-24 16:51:20作者：劳婵绚Shirley

模型训练参数详解

在FlagEmbedding项目中，BGE-EN-ICL模型的训练参数设置对于模型性能有着重要影响。根据项目技术报告和开发者确认，正确的训练参数配置如下：

序列长度设置：
- 查询最大长度(query_max_len)应设置为2048
- 段落最大长度(passage_max_len)保持512
- 示例查询最大长度(example_query_max_len)为256
- 示例段落最大长度(example_passage_max_len)为256

这些参数设置确保了模型能够正确处理包含上下文学习(ICL)示例的查询，同时保持对长文本的有效处理能力。

参数设置的技术考量

最初的项目文档中错误地将query_max_len设置为512，这会导致模型无法正确处理ICL示例。这是因为在数据处理逻辑中，当query_max_len设置为512时，计算剩余长度时会得到0，从而跳过所有ICL示例的添加。

正确的2048设置允许：

主查询部分使用512 tokens
剩余1536 tokens用于ICL示例(每个示例占用512 tokens，包含256 tokens的查询和256 tokens的段落)
这种配置支持包含多个ICL示例的上下文学习场景

训练资源配置建议

对于大规模训练，项目团队使用了以下硬件配置：

2台服务器
每台配备8块A800 GPU
总batch size达到512

对于资源有限的开发者，可以考虑：

使用梯度累积技术
适当降低batch size
采用混合精度训练
优化数据加载流程

实际应用建议

在实际应用中，开发者应当注意：

确保训练参数与论文描述一致
监控显存使用情况
验证ICL示例是否被正确添加
根据硬件条件调整batch size

这些参数设置和训练建议能够帮助开发者更好地复现BGE-EN-ICL模型的性能，并在不同硬件条件下实现高效的模型训练。

FlagEmbedding

Dense Retrieval and Retrieval-augmented LLMs

项目地址：https://gitcode.com/GitHub_Trending/fl/FlagEmbedding

登录后查看全文

项目优选

收起

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力