DeepSeek-V3中DualPipe调度算法的气泡时间分析

2025-04-28 05:12:07作者：薛曦旖Francesca

可用于高效训练和推理大语言模型，在数学、代码等任务上性能突出。采用创新负载均衡策略和多 token 预测训练目标，预训练于14.8万亿 tokens，训练成本低且过程稳定。

项目地址：https://gitcode.com/GitHub_Trending/de/DeepSeek-V3

在分布式深度学习训练中，流水线并行是一种重要的优化技术。DeepSeek-V3项目提出了一种创新的DualPipe调度算法，该算法通过特殊的任务划分和调度方式，显著提高了训练效率。本文将深入分析该算法中的关键性能指标——气泡时间(bubble time)的计算原理。

DualPipe调度算法概述

DualPipe调度算法将传统的流水线并行进行了创新性改进。它将流水线阶段(PP)分为两组，每组包含PP/2个设备。这种分组方式使得前向传播(Forward)和反向传播(Backward)可以同时在两组设备上交错执行，从而提高了硬件利用率。

气泡时间的组成分析

在流水线并行中，气泡时间指的是由于设备间依赖关系导致的设备空闲等待时间。DualPipe的气泡时间由四个主要部分组成：

初始前向传播气泡：当第一组设备开始执行前向传播时，第二组设备处于空闲状态。这部分气泡时间为(PP/2-1)×F，其中F表示单个前向传播步骤的时间。
输入反向传播等待气泡：当计算输入的反向传播时，如果该操作耗时(B_i)大于前向传播时间(F)，会产生额外的等待时间。这部分气泡为(PP/2-1)×(B_i-F)，其中B_i = B-W，B是标准反向传播时间，W是权重更新耗时。
完整反向传播气泡：当执行完整的反向传播(FB)时，与标准反向传播(B)的时间差会产生气泡，大小为(PP/2-1)×(FB-B)。
纯反向传播等待气泡：在等待纯反向传播完成时，会产生(PP/2-1)×(B_i-W)的气泡时间。

总气泡时间计算公式

综合上述四个部分，DualPipe调度的总气泡时间为： (PP/2-1)×(FB+B-3W)

值得注意的是，在实际实现中还存在一个优化点：当满足(PP/2)×F ≤ (PP/2-1)×(B-W)条件时，可以通过调整某些前向传播块的执行时机，进一步减少F大小的气泡时间。这使得在常见情况下，实际气泡时间可以优化为(PP/2-1)×(FB+B-3W)-F。

跨设备一致性分析

由于DualPipe算法在每个训练步骤后都进行设备间的同步操作，气泡时间在不同设备上是均匀分布的。这种设计保证了所有设备的负载均衡，避免了某些设备成为性能瓶颈的情况。

性能优化启示

理解气泡时间的组成对于优化分布式训练性能至关重要。通过分析可以看出：

减少前向传播时间F可以线性降低初始气泡
优化反向传播时间B特别是输入相关的B_i可以显著减少等待气泡
提高权重更新效率(减小W)对整体性能有复合提升效果

DeepSeek-V3的DualPipe调度算法通过这种精细的时间分析和优化，在保持模型精度的同时，大幅提升了分布式训练的效率，为大规模模型训练提供了有力的技术支持。

可用于高效训练和推理大语言模型，在数学、代码等任务上性能突出。采用创新负载均衡策略和多 token 预测训练目标，预训练于14.8万亿 tokens，训练成本低且过程稳定。

项目地址：https://gitcode.com/GitHub_Trending/de/DeepSeek-V3

登录后查看全文

项目优选

收起

deepin linux kernel

Ascend Extension for PyTorch

Claude Code 的开源替代方案。连接任意大模型，编辑代码，运行命令，自动验证 — 全自动执行。用 Rust 构建，极致性能。｜ An open-source alternative to Claude Code. Connect any LLM, edit code, run commands, and verify changes — autonomously. Built in Rust for speed. Get Started

旨在打造算法先进、性能卓越、高效敏捷、安全可靠的密码套件，通过轻量级、可剪裁的软件技术架构满足各行业不同场景的多样化要求，让密码技术应用更简单，同时探索后量子等先进算法创新实践，构建密码前沿技术底座！

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

华为昇腾面向大规模分布式训练的多模态大模型套件，支撑多模态生成、多模态理解。

昇腾LLM分布式训练框架

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

flutter_flutter