虚拟 自博弈 | FSP[38] | 将FP推广至扩展式博弈 | 对手的历史平均最佳响应 | 强化学习实现最优响应,监督学习实现平均策略,收敛至纳什均衡 |
NFSP[39] | 使用神经网络近似最优策略和平均策略 | 多层神经网络近似的对手历史平均最佳响应 | 基于DQN实现端到端学习,并收敛至纳什均衡 |
PSRO[42] | 求解子博弈元策略,合并成完整策略 | 将博弈对手的历史策略记录在元策略集 | 使用DO算法[58]训练新策略,收敛性受到对手策略采样方式的影响 |
-PSRO[44] | 训练改进群体的每种策略,而非单纯训练纳什均衡策略 | 马尔科夫-康尼链评价对手种群的质量 | 策略收敛于-rank解[43],改进了群体博弈的均衡收敛性 |
反事实 遗憾值 最小化 | MCCFR[48] | 采用蒙特卡罗抽样代替树节点遍历计算各个状态的遗憾值 | 包含对手所有可能行动的信息集 | 蒙特卡罗抽样是对遗憾值无偏估计,且在不完美信息扩展式博弈中快速收敛 |
CFR+[51] | 采用保证动作的遗憾值为正数,累计值不减少的遗憾值匹配方法 | 包含对手所有可能行动的信息集 | 改进遗憾值匹配机制,使CFR算法加速收敛近似纳什均衡 |
MiniMax 均衡 | Level-0[55] | 有限理性的对手行动源自0级策略的递归推理,0级策略采用人工筛选策略 | 以MiniMax策略为0级的定量认知层次策略 | 0级策略改进认知层次模型的效果,数据集实验结果有效预测人类行为 |
M3DDPG[56] | 采用保底策略鲁棒应对变化对手的多智能体DRL算法 | 导致自身收益最小的对手策略 | 采用对抗学习方法求解连续动态环境的MiniMax均衡策略 |