基于深度强化学习的对手建模方法研究综述
徐浩添, 秦龙, 曾俊杰, 胡越, 张琪

Research Progress of Opponent Modeling Based on Deep Reinforcement Learning
Haotian Xu, Long Qin, Junjie Zeng, Yue Hu, Qi Zhang
表5 常见实验场景、博弈模型、文献来源与问题特性
Table 5 Common experimental scenarios, game models, literature sources and problem characteristics
实验环境博弈模型文献可观测信息合作关系行动顺序状态动作
粒子世界POMDP[56-57,112-114]部分可观混合同步连续
德州扑克EG[38,40-42]全局可观竞争序贯离散
囚徒/硬币博弈MG[80]全局可观竞争同步离散
多智能体MujocoPOMDP[115]部分可观混合同步连续
网格世界MG[66-69]全局可观混合同步连续
迭代矩阵游戏Team MG[64,78]全局可观竞争同步离散
智力竞赛碗EG[26,71]全局可观竞争序贯离散
炸弹人MG[72]全局可观竞争同步离散
合作导航Dec-POMDP[63-64,116]部分可观合作同步离散
FightingICEMG[84,107]全局可观竞争同步连续
谷歌足球环境POMDP[87]部分可观混合同步连续