强化学习驱动的海战场多智能体协同作战仿真算法
石鼎, 燕雪峰, 宫丽娜, 张静宣, 关东海, 魏明强

Multi-agent Cooperative Combat Simulation in Naval Battlefield with Reinforcement Learning
Ding Shi, Xuefeng Yan, Lina Gong, Jingxuan Zhang, Donghai Guan, Mingqiang Wei
表1 实验参数设置
Table 1 Experimental parameters setting
主要参数量值
经验池容量 M105
批样本数 Batchsize1 024
折扣因子 γ0.95
Critic网络学习率 αc0.01
Actor网络学习率 αa0.01
软更新率 τ0.01
最大回合数 Max Episode5 000
每回合步数 Step Per Episode25
安全距离阈值 L/km2
演示时间步长/s0.1