现有的基于通信学习的多智能体路径规划(multi-agent path finding,MAPF)方法大多可扩展性较差或者聚合了过多冗余信息,导致通信低效。为解决以上问题,提出干扰者鉴别通信机制(DIC),通过判断视场(field of view,FOV)中央智能体的决策是...现有的基于通信学习的多智能体路径规划(multi-agent path finding,MAPF)方法大多可扩展性较差或者聚合了过多冗余信息,导致通信低效。为解决以上问题,提出干扰者鉴别通信机制(DIC),通过判断视场(field of view,FOV)中央智能体的决策是否因邻居的存在而改变来学习排除非干扰者的简洁通信,成功过滤了冗余信息。同时进一步实例化DIC,开发了一种新的高度可扩展的分布式MAPF求解器,基于强化和模仿学习的干扰者鉴别通信算法(disruptor identifiable communication based on reinforcement and imitation learning algorithm,DICRIA)。首先,由干扰者鉴别器配合DICRIA的策略输出层识别出干扰者;其次,在两轮通信中分别完成对干扰者与通信意愿发送方的信息更新;最后,DICRIA根据各模块的编码结果输出最终决策。实验结果表明,DICRIA的性能几乎在所有环境设置下都优于其他同类求解器,且相比基线求解器,成功率平均提高了5.2%。尤其在大尺寸地图的密集型问题实例下,DICRIA的成功率相比基线求解器甚至提高了44.5%。展开更多
文摘针对密集场景中大规模冲突导致多机器人路径规划(Multi-agent path finding,MAPF)成功率低的问题,引入讨价还价博弈机制并以层级协作A^(*)(Hierarchical cooperative A^(*),HCA^(*))算法为内核,提出一种基于讨价还价博弈机制的改进层级协作A^(*)(Bargaining game based improving HCA^(*),B-IHCA^(*))算法.首先,在HCA^(*)算法基础上,对导致路径无解的冲突双方或多方进行讨价还价博弈.由高优先级机器人先出价,当低优先级机器人在该条件下无法求解时,则其将不接受该出价,并通过降约束求解方式进行还价.再由其他冲突方对此做进一步还价,直至各冲突方都能协调得到可接受的路径方案.其次,为避免原始HCA^(*)算法由于高优先级的阻碍陷于过长或反复无效搜索状态,在底层A^(*)搜索环节加入了熔断机制.通过熔断机制与讨价还价博弈相配合可在提升路径求解成功率的同时兼顾路径代价.研究结果表明,所提算法在密集场景大规模机器人路径规划问题上较现有算法求解成功率更高、求解时间更短,路径代价得到改善,验证了算法的有效性.
文摘现有的基于通信学习的多智能体路径规划(multi-agent path finding,MAPF)方法大多可扩展性较差或者聚合了过多冗余信息,导致通信低效。为解决以上问题,提出干扰者鉴别通信机制(DIC),通过判断视场(field of view,FOV)中央智能体的决策是否因邻居的存在而改变来学习排除非干扰者的简洁通信,成功过滤了冗余信息。同时进一步实例化DIC,开发了一种新的高度可扩展的分布式MAPF求解器,基于强化和模仿学习的干扰者鉴别通信算法(disruptor identifiable communication based on reinforcement and imitation learning algorithm,DICRIA)。首先,由干扰者鉴别器配合DICRIA的策略输出层识别出干扰者;其次,在两轮通信中分别完成对干扰者与通信意愿发送方的信息更新;最后,DICRIA根据各模块的编码结果输出最终决策。实验结果表明,DICRIA的性能几乎在所有环境设置下都优于其他同类求解器,且相比基线求解器,成功率平均提高了5.2%。尤其在大尺寸地图的密集型问题实例下,DICRIA的成功率相比基线求解器甚至提高了44.5%。