-
题名基于多智能体近端策略优化的多信道动态频谱接入
- 1
-
-
作者
陈平平
张旭
谢肇鹏
丘毓萍
方毅
-
机构
福州大学先进制造学院
福州大学物理与信息工程学院
广东工业大学信息工程学院
-
出处
《电子学报》
EI
CAS
CSCD
北大核心
2024年第6期1824-1831,共8页
-
基金
国家自然科学基金(No.62171135,No.62322106,No.62071131)
福建省自然科学基金(No.2022J06010)。
-
文摘
为了在多用户多信道通信场景中应用动态频谱接入(Dynamic Spectrum Access,DSA)技术提高通信效率,保证用户公平,本文基于多智能体近端策略优化(Multi-Agent Proximal Policy Optimization,MAPPO)提出了MAPPO-DSA算法.该算法首先针对单信道接入在多个信道同时空闲时存在的频谱浪费问题,使用多信道接入作为解决方案.同时,多信道接入导致状态空间与动作空间指数增长,计算成本高,学习难度大.为此本文引入MAPPO深度强化学习(Deep Reinforcement Learning,DRL)算法,在复杂环境中高效学习和优化接入策略.通过设计优化MAPPO中观测及奖励等强化学习要素和共享网络参数来保证用户公平.最后,在不同场景下的实验结果表明,所提出的MAPPO-DSA能够学习到近似最优的接入策略,部分场景中的网络吞吐量逼近理论上限,显著优于现有算法,且有效保证用户公平.
-
关键词
动态频谱接入
深度强化学习
多智能体近端优化
多信道接入
-
Keywords
dynamic spectrum access
deep reinforcement learning
multi-agent policy optimization
multi-channel access
-
分类号
TP317.4
[自动化与计算机技术—计算机软件与理论]
-