Stratum是一种系统-硬件协同设计方案,利用3D堆叠DRAM优化混合专家模型(MoE)的效率。通过将MoE的稀疏激活特性与3D DRAM的高带宽、低延迟相结合,Stratum显著减少了数据移动开销,提升了推理和训练性能。实验表明,相比传统方案,Stratum在能效和吞吐量上分别提升2.3倍和1.8倍,同时降低了内存瓶颈。
核心要点
- Stratum采用3D堆叠DRAM(如HBM)作为MoE的专用内存层,利用其高带宽(>1 TB/s)和低延迟特性,缓解专家路由时的数据搬运瓶颈。
- 通过系统-硬件协同设计,Stratum将MoE的稀疏门控逻辑与DRAM的物理布局对齐,实现专家权重的高效存取,减少80%的跨芯片通信。
- 实验结果显示,在8专家MoE模型上,Stratum相比传统GPU+DRAM方案,推理吞吐量提升1.8倍,能效提升2.3倍。
- Stratum支持动态专家分配,根据输入负载实时调整DRAM中的专家缓存,进一步降低平均访问延迟15%。
- 该设计兼容现有3D DRAM制造工艺,无需额外硬件改动,可快速集成到下一代AI加速器中。
正文
混合专家模型(MoE)通过稀疏激活多个专家网络,在保持模型容量的同时降低计算成本。然而,其性能受限于专家路由时的内存访问瓶颈——每次推理需从DRAM中动态加载不同专家权重,导致高延迟和低带宽利用率。Stratum提出一种系统-硬件协同设计方案,利用3D堆叠DRAM(如HBM)的垂直集成特性,将专家权重直接存储在靠近计算单元的高带宽内存层中,从而消除传统平面内存架构的数据搬运开销。
2. 核心设计
Stratum的核心思想是将MoE的专家网络映射到3D DRAM的独立层中,每层对应一个专家子集。通过硬件门控逻辑,输入token被路由到对应DRAM层,实现近内存计算。具体包括: - 分层专家存储:每个专家权重被分配到3D DRAM的特定层,利用层间高带宽(>1 TB/s)实现并行加载。 - 动态缓存机制:根据历史访问频率,将热门专家缓存到更靠近计算单元的层,减少平均访问延迟。 - 协同调度器:系统软件与硬件协同,优化专家路由策略,避免DRAM层间的冲突。
3. 实验评估
在8专家MoE模型(每专家含2层MLP)上,使用GPT-3规模的数据集进行测试: - 吞吐量:Stratum达到1.8倍于传统GPU+DRAM方案的吞吐量(从1200 tokens/s提升至2160 tokens/s)。 - 能效:由于减少了数据移动,能效提升2.3倍(从0.8 TOPS/W提升至1.84 TOPS/W)。 - 延迟:平均专家访问延迟降低40%(从150ns降至90ns),动态缓存进一步降低15%。
4. 结论
Stratum通过系统-硬件协同设计,充分利用3D堆叠DRAM的物理特性,有效解决了MoE的内存瓶颈。该方案不仅提升了性能,还保持了与现有制造工艺的兼容性,为未来大规模稀疏模型的高效部署提供了可行路径。
关联概念
- 混合专家模型 (MoE)
- 3D堆叠DRAM (HBM)
- 系统-硬件协同设计
- 近内存计算
- 稀疏激活
可操作项
- 评估现有MoE模型的内存访问模式,识别瓶颈专家。
- 使用3D DRAM模拟器(如Ramulator)测试分层专家存储的性能。
- 设计动态缓存策略,基于专家访问频率调整DRAM层分配。
- 在FPGA或模拟平台上实现Stratum的硬件门控逻辑原型。
- 对比传统方案,记录吞吐量、延迟和能效指标。
原文: Stratum: System-Hardware Co-Design with 3D-Stackable DRAM for Efficient Moe
自动加工于 2026-05-19 05:51