Stratum：面向高效MoE的系统-硬件协同设计与3D堆叠DRAM

Stratum是一种系统-硬件协同设计方案，利用3D堆叠DRAM优化混合专家模型（MoE）的效率。通过将MoE的稀疏激活特性与3D DRAM的高带宽、低延迟相结合，Stratum显著减少了数据移动开销，提升了推理和训练性能。实验表明，相比传统方案，Stratum在能效和吞吐量上分别提升2.3倍和1.8倍，同时降低了内存瓶颈。

核心要点

Stratum采用3D堆叠DRAM（如HBM）作为MoE的专用内存层，利用其高带宽（>1 TB/s）和低延迟特性，缓解专家路由时的数据搬运瓶颈。
通过系统-硬件协同设计，Stratum将MoE的稀疏门控逻辑与DRAM的物理布局对齐，实现专家权重的高效存取，减少80%的跨芯片通信。
实验结果显示，在8专家MoE模型上，Stratum相比传统GPU+DRAM方案，推理吞吐量提升1.8倍，能效提升2.3倍。
Stratum支持动态专家分配，根据输入负载实时调整DRAM中的专家缓存，进一步降低平均访问延迟15%。
该设计兼容现有3D DRAM制造工艺，无需额外硬件改动，可快速集成到下一代AI加速器中。

正文

混合专家模型（MoE）通过稀疏激活多个专家网络，在保持模型容量的同时降低计算成本。然而，其性能受限于专家路由时的内存访问瓶颈——每次推理需从DRAM中动态加载不同专家权重，导致高延迟和低带宽利用率。Stratum提出一种系统-硬件协同设计方案，利用3D堆叠DRAM（如HBM）的垂直集成特性，将专家权重直接存储在靠近计算单元的高带宽内存层中，从而消除传统平面内存架构的数据搬运开销。

2. 核心设计

Stratum的核心思想是将MoE的专家网络映射到3D DRAM的独立层中，每层对应一个专家子集。通过硬件门控逻辑，输入token被路由到对应DRAM层，实现近内存计算。具体包括： - 分层专家存储：每个专家权重被分配到3D DRAM的特定层，利用层间高带宽（>1 TB/s）实现并行加载。 - 动态缓存机制：根据历史访问频率，将热门专家缓存到更靠近计算单元的层，减少平均访问延迟。 - 协同调度器：系统软件与硬件协同，优化专家路由策略，避免DRAM层间的冲突。

3. 实验评估

在8专家MoE模型（每专家含2层MLP）上，使用GPT-3规模的数据集进行测试： - 吞吐量：Stratum达到1.8倍于传统GPU+DRAM方案的吞吐量（从1200 tokens/s提升至2160 tokens/s）。 - 能效：由于减少了数据移动，能效提升2.3倍（从0.8 TOPS/W提升至1.84 TOPS/W）。 - 延迟：平均专家访问延迟降低40%（从150ns降至90ns），动态缓存进一步降低15%。

4. 结论

Stratum通过系统-硬件协同设计，充分利用3D堆叠DRAM的物理特性，有效解决了MoE的内存瓶颈。该方案不仅提升了性能，还保持了与现有制造工艺的兼容性，为未来大规模稀疏模型的高效部署提供了可行路径。

关联概念

混合专家模型 (MoE)
3D堆叠DRAM (HBM)
系统-硬件协同设计
近内存计算
稀疏激活

可操作项

评估现有MoE模型的内存访问模式，识别瓶颈专家。
使用3D DRAM模拟器（如Ramulator）测试分层专家存储的性能。
设计动态缓存策略，基于专家访问频率调整DRAM层分配。
在FPGA或模拟平台上实现Stratum的硬件门控逻辑原型。
对比传统方案，记录吞吐量、延迟和能效指标。

原文: Stratum: System-Hardware Co-Design with 3D-Stackable DRAM for Efficient Moe
自动加工于 2026-05-19 05:51

核心要点

正文

2. 核心设计

3. 实验评估

4. 结论

关联概念

可操作项

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章