期刊文献+
共找到9篇文章
< 1 >
每页显示 20 50 100
一种基于深度强化学习的通信抗干扰智能决策方法 被引量:14
1
作者 许华 +1 位作者 蒋磊 饶宁 《西北工业大学学报》 EI CAS CSCD 北大核心 2021年第3期641-649,共9页
为解决战场通信智能抗干扰决策问题,设计了一种基于深度强化学习的通信抗干扰决策方法。该方法在DQN算法架构下引入经验回放和基于爬山策略(PHC)的动态ε机制,提出动态ε-DQN智能决策算法,该算法能够根据决策网络状态更优地选择ε值,提... 为解决战场通信智能抗干扰决策问题,设计了一种基于深度强化学习的通信抗干扰决策方法。该方法在DQN算法架构下引入经验回放和基于爬山策略(PHC)的动态ε机制,提出动态ε-DQN智能决策算法,该算法能够根据决策网络状态更优地选择ε值,提高收敛速度和决策成功率。在决策过程中,对所有通信频率是否存在干扰信号进行检测,将结果作为干扰判别信息输入决策算法,使算法可在无先验干扰信息条件下智能决策通信频率,在尽量保证通信不中断的前提下,有效躲避干扰。实验结果表明,所提方法适应多种通信模型,决策速度较快,算法收敛后的平均成功率可达95%以上,较已有方法具有较大优势。 展开更多
关键词 通信抗干扰 智能决策 深度强化学习
下载PDF
基于最大策略熵深度强化学习的通信干扰资源分配方法 被引量:11
2
作者 饶宁 许华 +2 位作者 齐子森 史蕴豪 《西北工业大学学报》 EI CAS CSCD 北大核心 2021年第5期1077-1086,共10页
针对通信组网对抗中干扰资源分配的优化问题,提出了一种基于最大策略熵深度强化学习(MPEDRL)的干扰资源分配方法。该方法将深度强化学习思想引入到通信对抗干扰资源分配领域,并通过加入最大策略熵准则且自适应调整熵系数,以增强策略探... 针对通信组网对抗中干扰资源分配的优化问题,提出了一种基于最大策略熵深度强化学习(MPEDRL)的干扰资源分配方法。该方法将深度强化学习思想引入到通信对抗干扰资源分配领域,并通过加入最大策略熵准则且自适应调整熵系数,以增强策略探索性加速收敛至全局最优。该方法将干扰资源分配建模为马尔可夫决策过程,通过建立干扰策略网络输出分配方案,构建剪枝孪生结构的干扰效果评估网络完成方案效能评估,以策略熵最大化和累积干扰效能最大化为目标训练策略网络和评估网络,决策干扰资源最优分配方案。仿真结果表明,所提出的方法能有效解决组网对抗中的干扰资源分配问题,且相比于已有的深度强化学习方法具有学习速度更快,训练过程波动性更小等优点,干扰效能高出DDPG方法15%。 展开更多
关键词 干扰资源分配 深度强化学习 最大策略熵 神经网络
下载PDF
一种通信对抗干扰资源分配智能决策算法 被引量:10
3
作者 许华 +2 位作者 蒋磊 饶宁 史蕴豪 《电子与信息学报》 EI CSCD 北大核心 2021年第11期3086-3095,共10页
针对战场通信对抗智能决策问题,该文基于整体对抗思想提出一种基于自举专家轨迹分层强化学习的干扰资源分配决策算法(BHJM),算法针对跳频干扰决策难题,按照频点分布划分干扰频段,再基于分层强化学习模型分级决策干扰频段和干扰带宽,最... 针对战场通信对抗智能决策问题,该文基于整体对抗思想提出一种基于自举专家轨迹分层强化学习的干扰资源分配决策算法(BHJM),算法针对跳频干扰决策难题,按照频点分布划分干扰频段,再基于分层强化学习模型分级决策干扰频段和干扰带宽,最后利用基于自举专家轨迹的经验回放机制采样并训练优化算法,使算法能够在现有干扰资源特别是干扰资源不足的条件下,优先干扰最具威胁目标,获得最优干扰效果同时减少总的干扰带宽。仿真结果表明,算法较现有资源分配决策算法节约25%干扰站资源,减少15%干扰带宽,具有较大实用价值。 展开更多
关键词 智能干扰决策 分层强化学习 干扰资源分配 专家轨迹
下载PDF
一种融合噪声网络的深度强化学习通信干扰资源分配算法 被引量:2
4
作者 彭翔 许华 +2 位作者 蒋磊 饶宁 《电子与信息学报》 EI CSCD 北大核心 2023年第3期1043-1054,共12页
针对传统干扰资源分配算法在处理非线性组合优化问题时需要较完备的先验信息,同时决策维度小,无法满足现代通信对抗要求的问题,该文提出一种融合噪声网络的深度强化学习通信干扰资源分配算法(FNNDRL)。借鉴噪声网络的思想,该算法设计了... 针对传统干扰资源分配算法在处理非线性组合优化问题时需要较完备的先验信息,同时决策维度小,无法满足现代通信对抗要求的问题,该文提出一种融合噪声网络的深度强化学习通信干扰资源分配算法(FNNDRL)。借鉴噪声网络的思想,该算法设计了孪生噪声评估网络,在避免Q值高估的基础上,通过提升评估网络的随机性,保证了训练过程的探索性;基于概率熵的物理意义,设计了基于策略分布熵改进的策略网络损失函数,在最大化累计奖励的同时最大化策略分布熵,避免策略优化过程中收敛到局部最优。仿真结果表明,该算法在解决干扰资源分配问题时优于所对比的平均分配和强化学习方法,同时算法稳定性较高,对高维决策空间适应性强。 展开更多
关键词 干扰资源分配 深度强化学习 噪声网络 策略分布熵
下载PDF
基于多智能体深度强化学习的分布式协同干扰功率分配算法 被引量:4
5
作者 饶宁 许华 +2 位作者 蒋磊 史蕴豪 《电子学报》 EI CAS CSCD 北大核心 2022年第6期1319-1330,共12页
针对战场通信对抗协同干扰中的干扰功率分配难题,本文基于多智能体深度强化学习设计了一种分布式协同干扰功率分配算法.具体地,将通信干扰功率分配问题构建为完全协作的多智能体任务,采用集中式训练、分布式决策的方式缓解多智能体系统... 针对战场通信对抗协同干扰中的干扰功率分配难题,本文基于多智能体深度强化学习设计了一种分布式协同干扰功率分配算法.具体地,将通信干扰功率分配问题构建为完全协作的多智能体任务,采用集中式训练、分布式决策的方式缓解多智能体系统环境非平稳、决策维度高的问题,减少智能体之间的通信开销,并加入最大策略熵准则控制各智能体的探索效率,以最大化累积干扰奖励和最大化干扰策略熵为优化目标,加速各智能体间协同策略的学习.仿真结果表明,所提出的分布式算法能有效解决高维协同干扰功率分配难题,相比于已有的集中式分配算法具有学习速度更快、波动性更小等优点,且相同条件下干扰效率可高出集中式算法16.8%. 展开更多
关键词 通信对抗 协同功率分配 多智能体深度强化学习 分布式策略 最大策略熵
下载PDF
一种基于深度强化学习的协同通信干扰决策算法 被引量:3
6
作者 许华 +2 位作者 齐子森 饶宁 彭翔 《电子学报》 EI CAS CSCD 北大核心 2022年第6期1301-1309,共9页
针对协同电子战中跳频通信干扰协同决策难题,通过构建“整体优化、逐站决策”的协同决策模型,基于深度强化学习技术,设计了在Actor-Critic算法架构下融合优势函数的决策算法,并在奖励函数中嵌入专家激励机制以提高算法的探索能力,采用... 针对协同电子战中跳频通信干扰协同决策难题,通过构建“整体优化、逐站决策”的协同决策模型,基于深度强化学习技术,设计了在Actor-Critic算法架构下融合优势函数的决策算法,并在奖励函数中嵌入专家激励机制以提高算法的探索能力,采用集中式训练方法优化决策网络,使算法能够输出资源利用率最高的干扰方案,并大幅提高决策效率.仿真结果表明,相比于现有智能决策算法,本文算法给出的干扰方案能够节约8%干扰资源,决策效率提高50%以上,具有较大实用价值. 展开更多
关键词 深度强化学习 通信干扰决策 干扰资源分配 优势函数 专家激励
下载PDF
融合有效方差置信上界的Q学习智能干扰决策算法 被引量:3
7
作者 饶宁 许华 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2022年第5期162-170,共9页
为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法。该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,... 为进一步提升基于值函数强化学习的智能干扰决策算法的收敛速度,增强战场决策的有效性,设计了一种融合有效方差置信上界思想的改进Q学习智能通信干扰决策算法。该算法在Q学习算法的框架基础上,利用有效干扰动作的价值方差设置置信区间,从干扰动作空间中剔除置信度较低的干扰动作,减少干扰方在未知环境中不必要的探索成本,加快其在干扰动作空间的搜索速度,并同步更新所有干扰动作的价值,进而加速学习最优干扰策略。通过将干扰决策场景建模为马尔科夫决策过程进行仿真实验,所构造的干扰实验结果表明:当通信方使用干扰方未知的干扰躲避策略变更通信波道时,与现有基于强化学习的干扰决策算法相比,该算法在无通信方的先验信息条件下,收敛速度更快,可达到更高的干扰成功率,获得更大的干扰总收益。此外,该算法还适用于“多对多”协同对抗环境,可利用动作剔除方法降低联合干扰动作的空间维度,相同实验条件下,其干扰成功率比传统Q学习决策算法高50%以上。 展开更多
关键词 干扰决策 强化学习 有效方差置信上界 Q学习 干扰动作剔除 马尔科夫决策过程
下载PDF
融合动作剔除的深度竞争双Q网络智能干扰决策算法 被引量:2
8
作者 饶宁 许华 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第4期92-98,共7页
为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动... 为解决战场通信干扰决策问题,设计了一种融合动作剔除的深度竞争双Q网络智能干扰决策方法。该方法在深度双Q网络框架基础上采用竞争结构的神经网络决策最优干扰动作,并结合优势函数判断各干扰动作的相对优劣,在此基础上引入无效干扰动作剔除机制加快学习最佳干扰策略。当面对未知的通信抗干扰策略时,该方法能学习到较优的干扰策略。仿真结果表明,当敌方通信策略发生变化时,该方法能自适应调整干扰策略,稳健性较强,和已有方法相比可达到更高的干扰成功率,获得更大的干扰效能。 展开更多
关键词 干扰决策 深度双Q网络 竞争网络 干扰动作剔除
下载PDF
柱面共形阵列DOA与极化参数高效联合估计算法
9
作者 齐子森 彭大林 +1 位作者 许华 《空军工程大学学报(自然科学版)》 CSCD 北大核心 2021年第3期55-61,共7页
针对共形阵列天线信源方位与极化状态联合估计算法计算量大的问题,给出了一种基于多级维纳滤波器前向递推的柱面共形阵列天线信源方位与极化参数高效联合估计算法。新算法推导了柱面共形阵列天线多级维纳滤波器的前向递推。算法以某一... 针对共形阵列天线信源方位与极化状态联合估计算法计算量大的问题,给出了一种基于多级维纳滤波器前向递推的柱面共形阵列天线信源方位与极化参数高效联合估计算法。新算法推导了柱面共形阵列天线多级维纳滤波器的前向递推。算法以某一期望信号的训练信号为已知条件,通过多级维纳滤波器的前向递推,来实现信号子空间和噪声子空间的快速估计,避免了协方差矩阵估计与特征值分解,大大减少了已有联合估计算法的运算量,使计算量由原来的O(N^(3)+N^(2)L)降低到O(N^(2)L)。仿真实验表明:算法在降低算法复杂度的同时,可保证算法的估计精度,在信噪比大于10 dB时,与已有算法具有近似相同的估计精度,证明了算法的有效性。 展开更多
关键词 柱面共形阵列天线 联合估计 DOA 快速子空间估计
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部