本文提出了一种名为LC-MAPF的预训练模型,通过引入可学习的局部通信模块,使相邻智能体之间进行多轮特征共享,从而提升多智能体路径规划中的协调能力。实验表明,该方法在多种未见过的测试场景中,在多个指标上均优于现有的基于强化学习和模仿学习的求解器,且不牺牲可扩展性。
核心要点
- 多智能体路径规划(MAPF)是NP-hard问题,但可扩展的求解器对物流、搜救等实际应用至关重要。
- 现有方法将MAPF建模为Dec-POMDP,每个智能体基于局部观测通过强化学习或模仿学习决策。
- 本文提出LC-MAPF,引入可学习的局部通信模块,支持相邻智能体间多轮信息交换以增强协调。
- 实验表明LC-MAPF在多种未见测试场景中,在成功率、路径长度等指标上优于现有IL和RL方法。
- 通信机制不损害可扩展性,这是通信型MAPF求解器的常见瓶颈。
正文
多智能体路径规划(MAPF)是多机器人轨迹规划问题的一种广泛使用的抽象,其中多个同质智能体在共享环境中同时移动。尽管最优求解MAPF是NP-hard的,但可扩展且高效的求解器对于物流、搜救等实际应用至关重要。为此,研究社区提出了多种利用机器学习的分散式次优MAPF求解器。这些方法将MAPF(从单个智能体视角)建模为Dec-POMDP,每个时间步智能体需基于局部观测决定动作,通常通过强化学习或模仿学习求解。本文遵循相同思路,但额外引入了一个可学习的通信模块,通过高效的特征共享增强智能体间的协作。我们提出了局部通信多智能体路径规划(LC-MAPF),这是一个可泛化的预训练模型,在相邻智能体之间应用多轮通信以交换信息并改善协调。实验表明,所提方法在多种(未见过的)测试场景中,在多个指标上均优于现有的基于学习的MAPF求解器,包括IL和RL方法。值得注意的是,所引入的通信机制并未损害LC-MAPF的可扩展性,而这是通信型MAPF求解器的常见瓶颈。
关联概念
- 多智能体路径规划 (MAPF)
- Dec-POMDP
- 强化学习
- 模仿学习
- 多轮通信
- 特征共享
- 预训练模型
可操作项
可尝试复现LC-MAPF模型,在公开MAPF基准数据集(如MovingAI的仓库场景)上测试其性能,并与现有学习型求解器(如PRIMAL、DHC)进行对比。
原文: Learning to Communicate Locally for Large-Scale Multi-Agent Pathfinding
自动加工于 2026-05-19 05:53