将多智能体路径规划问题归结为非零和随机博弈,使用多智能体强化学习算法赢或快速学习-策略爬山 (win or learn fast-policy hill-climbing, WoLF-PHC) 得到纳什均衡策略,为各智能体做出无冲突的最优路径决 策,提出能够快速自适应的 WoLF-PHC (fast adaptive WoLF-PHC, FA-WoLF-PHC) 算法,通过构建目标函数, 使用梯度下降对学习率进行自适应更新.在猜硬币和自定义收益矩阵 2 个博弈场景中使用 FA-WoLF-PHC, 并与策略爬山 (policy hill-climbing, PHC) 算法和 Wolf-PHC 算法进行比较.结果表明,FA-WoLF-PHC 算法的 学习速度较 WoLF-PHC 算法有所提升,并有效减小了 WoLF-PHC 算法和 PHC 算法在学习过程中出现的振荡 现象.在多智能体路径规划问题中,FA-WoLF-PHC 算法的学习速度比 WoLF-PHC 算法提高了 16. 01%.将 路径规划问题的环境栅格地图扩大为 6 × 6,智能体数量增加为 3 个时,FA-WoLF-PHC、WoLF-PSP 和多头 绒 泡 菌 -人 工 势 场 Sarsa(physarum polycephalumartificial potential state-action-reward-state-action, PP-AP Sarsa) 算法在 10 次实验中学习到最终策略需要的平均时间分别为 16. 30、20. 59 和 17. 72 s.在多智能体路径 规划问题中,FA-WoLF-PHC 算法能够得到各智能体的纳什均衡策略,学习速度较 WoLF-PSP 和 PP-AP Sarsa