你只需要最少的RLVR训练：通过秩一轨迹外推大语言模型

HRM-Text 是一种新型高效预训练方法，用分层循环模型（HRM）替代标准 Transformer，将计算解耦为慢速策略层和快速执行层。通过 MagicNorm 和预热深度信用分配稳定深度循环，并仅使用指令-响应对进行训练。1B 参数模型仅用 400 亿 token 和 1500 美元预算，在 M…