基于深度强化学习的对手建模方法研究综述

徐浩添, 秦龙, 曾俊杰, 胡越, 张琪

Research Progress of Opponent Modeling Based on Deep Reinforcement Learning

Haotian Xu, Long Qin, Junjie Zeng, Yue Hu, Qi Zhang

表5 常见实验场景、博弈模型、文献来源与问题特性

Table 5 Common experimental scenarios, game models, literature sources and problem characteristics

实验环境	博弈模型	文献	可观测信息	合作关系	行动顺序	状态动作
粒子世界	POMDP	[56-57,112-114]	部分可观	混合	同步	连续
德州扑克	EG	[38,40-42]	全局可观	竞争	序贯	离散
囚徒/硬币博弈	MG	[80]	全局可观	竞争	同步	离散
多智能体Mujoco	POMDP	[115]	部分可观	混合	同步	连续
网格世界	MG	[66-69]	全局可观	混合	同步	连续
迭代矩阵游戏	Team MG	[64,78]	全局可观	竞争	同步	离散
智力竞赛碗	EG	[26,71]	全局可观	竞争	序贯	离散
炸弹人	MG	[72]	全局可观	竞争	同步	离散
合作导航	Dec-POMDP	[63-64,116]	部分可观	合作	同步	离散
FightingICE	MG	[84,107]	全局可观	竞争	同步	连续
谷歌足球环境	POMDP	[87]	部分可观	混合	同步	连续