Bagel 的安装和配置教程

2025-05-22 22:07:55作者：宣利权Counsellor

Open-source unified multimodal model

项目地址：https://gitcode.com/gh_mirrors/bagel7/Bagel

项目基础介绍

Bagel 是一个由 ByteDance-Seed 开发的开源多模态基础模型，拥有 70 亿个激活参数（总共 140 亿个），在大型交错多模态数据上进行了训练。Bagel 在标准的多模态理解排行榜上超过了当前顶级开源 VLMs，如 Qwen2.5-VL 和 InternVL-2.5，并且在文本到图像的质量上与强大的专业生成器如 SD3 相当。Bagel 还在经典图像编辑场景中展示了优于主流开源模型的定性结果。

主要编程语言

该项目的主要编程语言是 Python。

项目使用的关键技术和框架

Bagel 采用了 Mixture-of-Transformer-Experts (MoT) 架构，以最大化模型从丰富多样的多模态信息中学习的能力。它还使用了两个独立的编码器来捕捉图像的像素级和语义级特征。Bagel 遵循 Next Group of Token Prediction 范式，模型训练为预测下一组语言或视觉标记作为压缩目标。

Bagel 通过预训练、持续训练和监督微调来扩展 MoT 的容量，这些训练基于数万亿个交错的模态标记，涵盖语言、图像、视频和网页数据。

项目安装和配置的准备工作

在开始安装 Bagel 之前，请确保您的系统满足以下要求：

Python 3.10 或更高版本
conda 或其他 Python 环境管理器
git

安装步骤

1. 克隆项目仓库

首先，您需要从 GitHub 上克隆 Bagel 项目仓库：

git clone https://github.com/ByteDance-Seed/Bagel.git

2. 设置环境

进入 Bagel 目录，并创建一个新的 conda 环境：

cd Bagel
conda create -n bagel python=3.10 -y

激活刚刚创建的环境：

conda activate bagel

3. 安装依赖

在激活的环境中，安装项目所需的依赖：

pip install -r requirements.txt

4. 下载预训练模型

您需要从 HuggingFace Hub 下载预训练的模型检查点。请替换以下代码中的 /path/to/save 为您的实际保存路径：

from huggingface_hub import snapshot_download

save_dir = "/path/to/save/BAGEL-7B-MoT"
repo_id = "ByteDance-Seed/BAGEL-7B-MoT"
cache_dir = save_dir + "/cache"

snapshot_download(
    cache_dir=cache_dir,
    local_dir=save_dir,
    repo_id=repo_id,
    local_dir_use_symlinks=False,
    resume_download=True,
    allow_patterns=['*.json', '*.safetensors', '*.bin', '*.py', '*.md', '*.txt'],
)

5. 开始使用 Bagel

完成以上步骤后，您可以进入 inference.ipynb Jupyter 笔记本来开始使用 Bagel。

请注意，此教程为小白级操作，详细的高级配置和训练步骤请参考项目的官方文档。

Open-source unified multimodal model

项目地址：https://gitcode.com/gh_mirrors/bagel7/Bagel

登录后查看全文

项目优选

收起

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

CANNBot 是面向 CANN 开发的用于提升开发效率的系列智能体，本仓库为其提供可复用的 Skills 模块。

Oohos_react_native

React Native鸿蒙化仓库