基于深度强化学习的对手建模方法研究综述
徐浩添, 秦龙, 曾俊杰, 胡越, 张琪

Research Progress of Opponent Modeling Based on Deep Reinforcement Learning
Haotian Xu, Long Qin, Junjie Zeng, Yue Hu, Qi Zhang
表1 对手建模使用的深度强化学习算法
Table 1 Deep reinforcement learning algorithms in OM
分类算法优点不足
值函数近似DQN[6]经验复用、离轨策略机制无法用于高维、连续空间
DRQN[33]采用LSTM代替全连接层完全可观测下表现不如DQN
策略梯度DDPG[34]确定性策略、Actor-Critic框架无法处理离散问题、难以确定更新步长
A3C[35]多线程学习、异步更新参数更新策略方差较大
PPO[37]有裁剪的自适应超参数KL散度对差异性较大样本敏感