HRM-Text 是一种新型高效预训练方法，用分层循环模型（HRM）替代标准 Transformer，将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环，并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算，在 M…

阅读全文 →

↗

更多 AI·模型 文章

WorldKV：通过世界检索和压缩实现高效的世界记忆

你只需要最小的RLVR训练：通过秩1轨迹外推LLMs

π-Bench：评估主动个人助理代理在长视界工作流中的表现

HRM-Text：超越规模的高效预训练

更多 AI·模型文章