Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning

这是一篇发表在NeurIPS2022的论文,文章提出了一种分组算法,旨在提高算法零样本泛化能力

文章目录

Self-Organized Group for Cooperative Multi-Agent Reinforcement Learning1 论文背景2 论文方法3 实验效果

1 论文背景

CTDE:集中训练分散执行,在训练阶段将所有智能体的Q值加到一起去训练,训练完了之后在执行阶段大家各自执行自己的,比较典型的有qmix算法

存在问题:泛化能力一般、协作能力一般(没有通信)

解决方案: 加入通信,结合现实生活中的现象:一个公司往往分成好几个部门,每个部门都有各自的领导,领导下发任务,该论文设计了一个自组织的分组强化学习算法(SOG),每个组内的成员只和指挥者通信,提高效率 设计了一个基于变分的通信器,提高通信效率

例子: 背景:A、B、C同时按下按钮才可以完成任务,按钮位置固定,按钮1和2相距10m,按钮3在按钮1和2中间; 观测:局部观测视野在6m,也就是说A观测不到B按; 限制:显然CTDE框架下Qmix没法解决这个问题; 引出:设计了一种基于通信的CTDE方法解决上述问题

2 论文方法

选出指挥者,指挥者向周围的智能体发出组队邀请;其余智能体选取自己想要追随的指挥者,并打包发送信息给自己的指挥者;队伍成立,指挥者给小组成员发送处理过的信息 指挥者选取方法:随机CE:每个agent以一定概率p当指挥官DPP-based CE:希望最大化指挥官之间的多样性,保证选取出来指挥官相关性小PG-based CE:基于策略梯度,将指挥官的选择也视为一个强化学习任务。输入是全局状态,输出是每个agent成为指挥官的概率,用PG做梯度下降 消息传递总体规则:分组形成后,指挥官接受组内的消息,将处理后的信息发送回分组内的成员指挥官采用累加求平均的非参数化消息混合器处理接受到的信息 每个智能体只需要与组内的指挥官通信

3 实验效果

好文阅读

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: