自蒸馏智能体强化学习

SDAR 通过将在线策略自蒸馏（OPSD）作为门控辅助目标，同时保持强化学习（RL）作为主要优化框架，增强了多轮智能体训练的强化学习。它使用 sigmoid 门控选择性地强化教师认可的正差距令牌的蒸馏，同时减弱负面的教师拒绝。在 Qwen2…