专家混合模型(Mixture-of-Experts, MoE)成为扩展预训练模型规模的最热门技术之一。通过动态激活专家,实现条件计算,大幅增加神经网络的参数数量,这对于吸收深度学习领域中广泛的知识至关重要。然而,即使在现有的系统和算法优化下,通信效率低下和内存消耗问题仍然是需要解决的重大挑战。本文介绍了一种名为 MPipeMoE 的研究工作,通过自适应且内存高效的流水线并行技术,加速了 MoE 的训练。并通过拓展自适应流水线并行方法,实现内存复用策略,通过消除内存冗余来减少内存需求,并开发了自适应选择组件,在运行时根据硬件能力和模型特性动态选择最优策略。在常见的 MoE 模型训练中,与现有最先进的方法相比,MPipeMoE 的训练速度最高提升了 2.8 倍,同时将内存占用减少了 47%,展现了在训练大规模模型中的卓越性能。
本文提出了一种名为HyDRA的创新框架,旨在解决在大规模图上训练图神经网络(GNNs)时面临的内存限制和数据传输瓶颈等挑战。HyDRA通过引入多GPU内存共享和多节点特征检索等机制,将采样和数据传输无缝集成为单一内核操作,从而显著提升了基于采样的小批次训练效率。
随着图神经网络(GNN)向动态图数据扩展,时序图神经网络(TGNN)在处理动态图数据方面展现了卓越的能力。然而,在分布式 TGNN 训练中,高效处理时序依赖性带来的大量跨设备通信成为关键挑战,这通常导致显著的冗余数据传输和高昂的通信开销。现有系统难以有效消除数据重用与传输中的冗余问题,因此在分布式环境下表现出严重的通信瓶颈。为此,本研究提出了 Sven,一种联合设计的算法与系统库,专为多 GPU 平台上的 TGNN 训练加速而构建。Sven 利用 TGNN 模型的依赖模式,开发了无冗余的图组织方式,从根本上减少了冗余数据传输。同时,我们针对设备间通信不平衡问题,将图划分问题形式化为最小化最大通信代价问题,并证明其为 NP 难问题。为此,我们提出了一种近似算法 Re-FlexBiCut 来解决这一问题。此外,Sven 结合预取技术、自适应微批次流水线以及异步流水线机制,构建了分层流水线方法以缓解通信开销。
基于Transformer的模型在多个领域取得了显著的进步,这主要得益于自注意力机制能够捕捉输入序列中的上下文关系。然而,处理长序列对于Transformer模型来说仍然计算成本高昂,这主要是由于自注意力机制带来的O(n²)复杂度。为了解决这一问题,稀疏注意力被提出,旨在将二次依赖降低为线性。尽管如此,高效部署稀疏Transformer仍面临两大主要障碍:1)由于算法的近似特性导致注意力分散,现有的系统优化对稀疏Transformer效果不佳;2)输入序列的变异性导致计算和内存访问效率低下。本文提出创新性Transformer框架Raptor-T,致力于解决现有稀疏注意力模型在长序列与变长序列处理中的系统性挑战。针对传统Transformer模型因自注意力机制O(n²)复杂度导致的长序列处理效率瓶颈,本工作通过算法与系统协同优化实现三重突破:首先,设计融合式内存高效多头注意力机制,有效解决稀疏注意力计算碎片化问题;其次,创新性引入异步数据处理架构,消除GPU阻塞操作,实现计算资源的高效利用;最后,提出动态填充优化策略,通过智能序列打包技术降低填充冗余度,显著提升GPU计算均衡性。
专家混合模型(Mixture of Experts, MoE)架构通过扩展模型参数提升了模型质量。然而,在分布式训练场景中,其发展受到显著通信开销和专家负载不平衡的限制。现有方法仅允许通信和计算的粗粒度重叠,虽然略微缓解了通信成本,但同时也显著降低了计算效率。此外,当前解决负载不平衡的方法通常会损害模型质量。我们提出了CCFuser,这是一个专为高效训练MoE模型设计的新框架。CCFuser通过高效的GPU间共享内存访问,取代了MoE架构中典型的昂贵的All2All操作。这使得本地和远程数据可以在融合内核中并发计算,从而显著提高了GEMM(通用矩阵乘法)操作的计算FLOPS。此外,CCFuser通过一种资源高效的专家重分配策略解决了负载不平衡问题,该策略通过等效图变换优化了专家重分配中的计算资源使用,而不会牺牲统计准确性。通过整合这些优化,CCFuser显著提升了GPU的利用效率。
深度学习推荐模型(DLRM)在个性化推荐、广告投放及电子商务等领域发挥着重要作用。然而,DLRM 的训练过程受限于嵌入表的高内存占用以及分布式训练中的通信开销,导致计算效率低下。现有方法如张量训练(TT)分解尽管能够有效压缩嵌入表,但引入了额外的计算开销,同时传统的分布式训练框架亦面临数据传输瓶颈。针对上述问题,本研究提出 EcoRec 框架,该框架结合 TT 分解与分布式训练,通过优化计算模式减少冗余计算,并引入基于排序索引的微批量技术,以降低存储需求而不增加计算开销。此外,EcoRec 采用嵌入层流水线训练系统,实现数据均衡分配并优化通信效率。实验结果表明,相较于现有方法,EcoRec 可实现最高 3.1倍 的加速效果,并降低 38.5% 的内存使用量。本研究的成果为高性能 DLRM 训练提供了新的解决方案。
在深度学习领域,算子融合是提高计算效率的重要手段,但传统方法在处理计算密集型算子链时表现不足,导致性能优化的瓶颈。MCFuser 框架应运而生,通过引入内存受限计算密集型(MBCI)算子的高效融合方法,不仅提升了数据局部性,还解决了冗余内存访问问题。在 NVIDIA GPU 上,MCFuser 展现了卓越性能,达到最高 5.9 倍的加速效果,同时将调优时间缩短 70 倍,为深度学习计算优化提供了强力支撑。
首页上页1下页尾页