辅助 任务 | DRON[26] | 设计挖掘不同对手策略隐藏特征的神经网络 | 使用MLP处理对手行动,将表征信息用于强化学习任务 | 提取对手特征用于DRL算法决策 | 手工提取输入专家网络的特征,可采用RNN改进 |
DIPQN[71] | 从观测直接提取对手策略特征,训练对手建模的辅助任务 | 策略特征网络学习从观测提取表征,并通过行为克隆的准确性修正网络 | 设计了调节最大奖励与对手建模的自适应损失函数 | 采用经验回放池离线训练,学习的对手策略具有较大样本方差 |
AMS-A3C[72] | 在强化学习过程中,制订估计其他智能体策略的辅助任务 | 决策网络与模仿决策的对手模型共享结构、参数,降低模型学习成本 | 提出参数共享、策略表征2套方案,将对手建模融合进A3C算法 | 对手模型参数敏感,难以应对复杂场景、具有学习能力的对手 |
学习 表征 | PPO-Emb[74] | 从交互样本中无监督地学习对手表征 | 提取同时具有策略提升效果和对手区分度的表征信息 | 无需领域知识,通用性强,适用大多数DRL算法 | 无法独立推断,用于辅助其他DRL算法决策 |
RFM[73] | 采用图网络学习智能体的社会关系表征 | 通过边缘属性、节点等图结构信息预测对手行动、评估对手社会关系强度 | 量化智能体交互的社会属性,网络结构具有较好拓展性 | 存在复杂交互关系的图网络计算困难 |
概率 推理 | P-BIT[76] | 多智能体DRL的最优策略形式化为推理私有信息的概率下界 | 使用信念模块根据友方行为推理其私有信息 | 提出不完美信息条件下通过行动与队友传递私有信息的方法 | 适用于简单的二人合作场景 |
ROMMEO[78] | 多智能体DRL形式化为基于对手模型的最优策略变分推理 | 预测对手行动,用于实现学习最优策略的推理任务 | 提出最大熵目标的正则化的对手建模方法 | 在线优化参数,训练时间长。默认对手目标已知,无法适应未知智能体 |
自我- 他人交互 | SOM[79] | 基于自身策略推理对手可能的目标,用于支撑决策 | 建立拟合对手策略的神经网络,通过优化对手策略反向推断对手的目标 | 无需额外模型和参数显式建模,仿照自身模型推理任意数量规模对手 | 智能体与对手共享目标,并且奖励结构取决于目标 |
LOLA[81] | 考虑具有学习能力的对手,解释对手学习参数的更新对自身策略影响 | 建模对手的价值函数,求其二阶导优化策略梯度 | 策略更新中增加了对手参数更新项,通过泰勒展开构造成高阶梯度项 | 默认对手使用可梯度优化的方法,并且无法察觉LOLA对其模型进行利用 |