基于深度强化学习的对手建模方法研究综述
徐浩添, 秦龙, 曾俊杰, 胡越, 张琪

Research Progress of Opponent Modeling Based on Deep Reinforcement Learning
Haotian Xu, Long Qin, Junjie Zeng, Yue Hu, Qi Zhang
表2 博弈均衡策略方法的研究动机、求解问题与效果
Table 2 Research motivation, solved problem and effects of game equilibrium strategy methods
分类方法研究动机对手模型模型效果
虚拟 自博弈FSP[38]将FP推广至扩展式博弈对手的历史平均最佳响应强化学习实现最优响应,监督学习实现平均策略,收敛至纳什均衡
NFSP[39]使用神经网络近似最优策略和平均策略多层神经网络近似的对手历史平均最佳响应基于DQN实现端到端学习,并收敛至纳什均衡
PSRO[42]求解子博弈元策略,合并成完整策略将博弈对手的历史策略记录在元策略集使用DO算法[58]训练新策略,收敛性受到对手策略采样方式的影响
α-PSRO[44]训练改进群体的每种策略,而非单纯训练纳什均衡策略马尔科夫-康尼链评价对手种群的质量策略收敛于α-rank解[43],改进了群体博弈的均衡收敛性
反事实 遗憾值 最小化MCCFR[48]采用蒙特卡罗抽样代替树节点遍历计算各个状态的遗憾值包含对手所有可能行动的信息集蒙特卡罗抽样是对遗憾值无偏估计,且在不完美信息扩展式博弈中快速收敛
CFR+[51]采用保证动作的遗憾值为正数,累计值不减少的遗憾值匹配方法包含对手所有可能行动的信息集改进遗憾值匹配机制,使CFR算法加速收敛近似纳什均衡
MiniMax 均衡Level-0[55]有限理性的对手行动源自0级策略的递归推理,0级策略采用人工筛选策略以MiniMax策略为0级的定量认知层次策略0级策略改进认知层次模型的效果,数据集实验结果有效预测人类行为
M3DDPG[56]采用保底策略鲁棒应对变化对手的多智能体DRL算法导致自身收益最小的对手策略采用对抗学习方法求解连续动态环境的MiniMax均衡策略