基于深度强化学习的对手建模方法研究综述
|
徐浩添, 秦龙, 曾俊杰, 胡越, 张琪
|
Research Progress of Opponent Modeling Based on Deep Reinforcement Learning
|
Haotian Xu, Long Qin, Junjie Zeng, Yue Hu, Qi Zhang
|
|
表3 递归推理方法的研究动机、创新点与局限总结
|
Table 3 Summary of research motivations, innovations and limitations of recursive reasoning methods
|
|
类别 | 算法 | 研究动机 | 模型用途 | 创新点 | 局限性 |
---|
心智理论 | ToMnet[60] | 从心智理论提出符合人类认知的元学习对手模型 | 预测的对手行为、目标、信念 | 建立元学习的先验模型,用于预测表征和心智状态 | 适用的实验场景简单,环境完全可观 | 认知层次结构 | PR2[63] | 智能体具有推断对手策略的信念递归推理能力 | 推理对手下一步意图 | 提出多智能体概率递归推理的分布式框架,利用变分贝叶斯推理对手策略 | 二人博弈场景收敛,复杂合作场景中表现不足 | GR2[64] | 借助不同层次结构的递归推理建模对手的有限理性 | 以K层深度推理对手的下一步意图 | 设计了基于概率图模型的层次结构,并证明存在完美贝叶斯均衡 | 具有递归推理层级选择问题,带来更高计算要求 | 贝叶斯 策略复用 | DPN-BPR+[68] | 针对非平稳的对手策略,提出策略检测和复用机制 | 根据收益更新对当前对手策略的信念 | 深度神经网络作为BPR+的值函数近似,使用网络蒸馏存储最优响应策略 | 假定对手在固定策略之间切换,无法识别连续演化的对手策略 | Deep Bayes ToMop[69] | 将BPR预测能力和心智理论的递归推理能力结合互补 | 在BPR信念基础上多层递归推理 | 具有学习对手演化和应对未知对手策略的能力 | 在线学习新策略的耗时长,无法应对多个对手 |
|
|
|