DeepSeek开源第4弹:优化并行策略
三言科技消息 刚刚DeepSeek推出开源周第4弹:优化的并行策略。
#OpenSourceWeek的第4天:优化的并行策略
DualPipe - 用于V3/R1训练中计算-通信重叠的双向管道并行算法。
EPLB - V3/R1的专家并行负载平衡器。
分析V3/R1中的计算-通信重叠。
详细介绍如下:
DualPipe(双管道并行算法)
DualPipe是DeepSeek-V3技术报告中引入的创新双向管道并行算法。它实现了正向和后向计算通信阶段的完全重叠,也减少了管道气泡。
Expert Parallelism Load Balancer (EPLB)专家并行负载平衡器
使用专家并行(EP)时,不同的专家被分配到不同的GPU。由于不同专家的负载可能因当前工作量而异,因此保持不同GPU的负载平衡很重要。正如DeepSeek-V3论文中所述,采用了冗余专家策略,复制了繁重的专家。然后,我们启发式地将重复的专家打包到GPU中,以确保不同GPU之间的负载平衡。此外,由于DeepSeek-V3中使用的组有限专家路由,我们还尝试尽可能将同一组的专家放置在同一节点上,以减少节点间数据流量。
分析V3/R1中的计算-通信重叠
在这里,我们公开分享来自培训和推理框架的剖析数据,以帮助社区更好地了解通信-计算重叠策略和低级实施细节。