强化学习驱动的海战场多智能体协同作战仿真算法

强化学习驱动的海战场多智能体协同作战仿真算法

石鼎, 燕雪峰, 宫丽娜, 张静宣, 关东海, 魏明强

Multi-agent Cooperative Combat Simulation in Naval Battlefield with Reinforcement Learning

Ding Shi, Xuefeng Yan, Lina Gong, Jingxuan Zhang, Donghai Guan, Mingqiang Wei

表1 实验参数设置

Table 1 Experimental parameters setting

主要参数	量值
经验池容量 $M$	10⁵
批样本数 $B a t c h s i z e$	1 024
折扣因子 $γ$	0.95
Critic网络学习率 $α_{c}$	0.01
Actor网络学习率 $α_{a}$	0.01
软更新率 $τ$	0.01
最大回合数 $M a x E p i s o d e$	5 000
每回合步数 $S t e p P e r E p i s o d e$	25
安全距离阈值 $L / k m$	2
演示时间步长/s	0.1