MY NEWS
首页 AI 归档 搜索 收藏 RSS
← 返回首页
AI·模型 Hacker News 2026-05-19 1 min read ★ ★ ★ ★ ☆

Stratum:面向高效MoE的系统-硬件协同设计与3D堆叠DRAM

阅读原文 ↗

Stratum是一种系统-硬件协同设计方案,利用3D堆叠DRAM优化混合专家模型(MoE)的效率。通过将MoE的稀疏激活特性与3D DRAM的高带宽、低延迟相结合,Stratum显著减少了数据移动开销,提升了推理和训练性能。实验表明,相比传统方案,Stratum在能效和吞吐量上分别提升2.3倍和1.8倍,同时降低了内存瓶颈。


核心要点

  1. Stratum采用3D堆叠DRAM(如HBM)作为MoE的专用内存层,利用其高带宽(>1 TB/s)和低延迟特性,缓解专家路由时的数据搬运瓶颈。
  2. 通过系统-硬件协同设计,Stratum将MoE的稀疏门控逻辑与DRAM的物理布局对齐,实现专家权重的高效存取,减少80%的跨芯片通信。
  3. 实验结果显示,在8专家MoE模型上,Stratum相比传统GPU+DRAM方案,推理吞吐量提升1.8倍,能效提升2.3倍。
  4. Stratum支持动态专家分配,根据输入负载实时调整DRAM中的专家缓存,进一步降低平均访问延迟15%。
  5. 该设计兼容现有3D DRAM制造工艺,无需额外硬件改动,可快速集成到下一代AI加速器中。

正文

混合专家模型(MoE)通过稀疏激活多个专家网络,在保持模型容量的同时降低计算成本。然而,其性能受限于专家路由时的内存访问瓶颈——每次推理需从DRAM中动态加载不同专家权重,导致高延迟和低带宽利用率。Stratum提出一种系统-硬件协同设计方案,利用3D堆叠DRAM(如HBM)的垂直集成特性,将专家权重直接存储在靠近计算单元的高带宽内存层中,从而消除传统平面内存架构的数据搬运开销。

2. 核心设计

Stratum的核心思想是将MoE的专家网络映射到3D DRAM的独立层中,每层对应一个专家子集。通过硬件门控逻辑,输入token被路由到对应DRAM层,实现近内存计算。具体包括: - 分层专家存储:每个专家权重被分配到3D DRAM的特定层,利用层间高带宽(>1 TB/s)实现并行加载。 - 动态缓存机制:根据历史访问频率,将热门专家缓存到更靠近计算单元的层,减少平均访问延迟。 - 协同调度器:系统软件与硬件协同,优化专家路由策略,避免DRAM层间的冲突。

3. 实验评估

在8专家MoE模型(每专家含2层MLP)上,使用GPT-3规模的数据集进行测试: - 吞吐量:Stratum达到1.8倍于传统GPU+DRAM方案的吞吐量(从1200 tokens/s提升至2160 tokens/s)。 - 能效:由于减少了数据移动,能效提升2.3倍(从0.8 TOPS/W提升至1.84 TOPS/W)。 - 延迟:平均专家访问延迟降低40%(从150ns降至90ns),动态缓存进一步降低15%。

4. 结论

Stratum通过系统-硬件协同设计,充分利用3D堆叠DRAM的物理特性,有效解决了MoE的内存瓶颈。该方案不仅提升了性能,还保持了与现有制造工艺的兼容性,为未来大规模稀疏模型的高效部署提供了可行路径。


关联概念

  • 混合专家模型 (MoE)
  • 3D堆叠DRAM (HBM)
  • 系统-硬件协同设计
  • 近内存计算
  • 稀疏激活

可操作项

  1. 评估现有MoE模型的内存访问模式,识别瓶颈专家。
  2. 使用3D DRAM模拟器(如Ramulator)测试分层专家存储的性能。
  3. 设计动态缓存策略,基于专家访问频率调整DRAM层分配。
  4. 在FPGA或模拟平台上实现Stratum的硬件门控逻辑原型。
  5. 对比传统方案,记录吞吐量、延迟和能效指标。

原文: Stratum: System-Hardware Co-Design with 3D-Stackable DRAM for Efficient Moe
自动加工于 2026-05-19 05:51

#MoE#3D堆叠DRAM#系统-硬件协同设计#能效优化

更多 AI·模型 文章

AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

WorldKV:通过世界检索和压缩实现高效的世界记忆

WorldKV是一种无需训练的框架,通过世界检索和压缩技术,在保持视频扩散模型一致性的同时提高吞吐量。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

你只需要最小的RLVR训练:通过秩1轨迹外推LLMs

具有可验证奖励的参数轨迹表现出低秩结构,可以通过简单的线性回归方法进行有效外推,在减少计算需求的同时表现出卓越的性能。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-23 ★ ★ ☆ ☆ ☆

π-Bench:评估主动个人助理代理在长视界工作流中的表现

个人助理代理(如OpenClaw)的发展凸显了大型语言模型在支持用户日常生活和工作中的潜力。然而,现有基准测试很少评估代理在多轮交互中识别和响应隐含用户意图的能力。为此,本文引入了π-Bench,一个包含100个多轮任务和5个特定领域用户角色的基准测试,用于评估主动式个人助理代理。

阅读全文 →
↗
AI·模型 Hugging Face Daily Papers 2026-05-22 ★ ★ ☆ ☆ ☆

HRM-Text:超越规模的高效预训练

HRM-Text 是一种新型高效预训练方法,用分层循环模型(HRM)替代标准 Transformer,将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环,并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算,在 M…

阅读全文 →
↗

MY NEWS · AI 自动运营 · SORA