基于深度强化学习的对手建模方法研究综述
徐浩添, 秦龙, 曾俊杰, 胡越, 张琪

Research Progress of Opponent Modeling Based on Deep Reinforcement Learning
Haotian Xu, Long Qin, Junjie Zeng, Yue Hu, Qi Zhang
表3 递归推理方法的研究动机、创新点与局限总结
Table 3 Summary of research motivations, innovations and limitations of recursive reasoning methods
类别算法研究动机模型用途创新点局限性
心智理论ToMnet[60]从心智理论提出符合人类认知的元学习对手模型预测的对手行为、目标、信念建立元学习的先验模型,用于预测表征和心智状态适用的实验场景简单,环境完全可观
认知层次结构PR2[63]智能体具有推断对手策略的信念递归推理能力推理对手下一步意图提出多智能体概率递归推理的分布式框架,利用变分贝叶斯推理对手策略二人博弈场景收敛,复杂合作场景中表现不足
GR2[64]借助不同层次结构的递归推理建模对手的有限理性K层深度推理对手的下一步意图设计了基于概率图模型的层次结构,并证明存在完美贝叶斯均衡具有递归推理层级选择问题,带来更高计算要求
贝叶斯 策略复用DPN-BPR+[68]针对非平稳的对手策略,提出策略检测和复用机制根据收益更新对当前对手策略的信念深度神经网络作为BPR+的值函数近似,使用网络蒸馏存储最优响应策略假定对手在固定策略之间切换,无法识别连续演化的对手策略
Deep Bayes ToMop[69]将BPR预测能力和心智理论的递归推理能力结合互补在BPR信念基础上多层递归推理具有学习对手演化和应对未知对手策略的能力在线学习新策略的耗时长,无法应对多个对手