基于深度强化学习的对手建模方法研究综述
徐浩添, 秦龙, 曾俊杰, 胡越, 张琪

Research Progress of Opponent Modeling Based on Deep Reinforcement Learning
Haotian Xu, Long Qin, Junjie Zeng, Yue Hu, Qi Zhang
表4 隐式DRL对手建模方法的研究动机、创新点与局限总结
Table 4 Summary of research motivation, innovation points and limitations of implicit based opponent modeling methods
类别算法研究动机模型特点创新点局限性
辅助 任务DRON[26]设计挖掘不同对手策略隐藏特征的神经网络使用MLP处理对手行动,将表征信息用于强化学习任务提取对手特征用于DRL算法决策手工提取输入专家网络的特征,可采用RNN改进
DIPQN[71]从观测直接提取对手策略特征,训练对手建模的辅助任务策略特征网络学习从观测提取表征,并通过行为克隆的准确性修正网络设计了调节最大奖励与对手建模的自适应损失函数采用经验回放池离线训练,学习的对手策略具有较大样本方差
AMS-A3C[72]在强化学习过程中,制订估计其他智能体策略的辅助任务决策网络与模仿决策的对手模型共享结构、参数,降低模型学习成本提出参数共享、策略表征2套方案,将对手建模融合进A3C算法对手模型参数敏感,难以应对复杂场景、具有学习能力的对手
学习 表征PPO-Emb[74]从交互样本中无监督地学习对手表征提取同时具有策略提升效果和对手区分度的表征信息无需领域知识,通用性强,适用大多数DRL算法无法独立推断,用于辅助其他DRL算法决策
RFM[73]采用图网络学习智能体的社会关系表征通过边缘属性、节点等图结构信息预测对手行动、评估对手社会关系强度量化智能体交互的社会属性,网络结构具有较好拓展性存在复杂交互关系的图网络计算困难
概率 推理P-BIT[76]多智能体DRL的最优策略形式化为推理私有信息的概率下界使用信念模块根据友方行为推理其私有信息提出不完美信息条件下通过行动与队友传递私有信息的方法适用于简单的二人合作场景
ROMMEO[78]多智能体DRL形式化为基于对手模型的最优策略变分推理预测对手行动,用于实现学习最优策略的推理任务提出最大熵目标的正则化的对手建模方法在线优化参数,训练时间长。默认对手目标已知,无法适应未知智能体
自我- 他人交互SOM[79]基于自身策略推理对手可能的目标,用于支撑决策建立拟合对手策略的神经网络,通过优化对手策略反向推断对手的目标无需额外模型和参数显式建模,仿照自身模型推理任意数量规模对手智能体与对手共享目标,并且奖励结构取决于目标
LOLA[81]考虑具有学习能力的对手,解释对手学习参数的更新对自身策略影响建模对手的价值函数,求其二阶导优化策略梯度策略更新中增加了对手参数更新项,通过泰勒展开构造成高阶梯度项默认对手使用可梯度优化的方法,并且无法察觉LOLA对其模型进行利用