期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
车辆边缘计算环境下基于深度强化学习的服务卸载方法 被引量:2
1
作者 刘国志 代飞 +3 位作者 莫启 许小龙 强振平 王雷光 《计算机集成制造系统》 EI CSCD 北大核心 2022年第10期3304-3315,共12页
为了在车辆边缘环境下高效地进行服务卸载,同时考虑服务的卸载决策以及边缘服务器和云服务器的协同资源分配,提出一种基于深度强化学习的服务卸载方法。首先提出车辆边缘环境下一种端—边—云协同的服务卸载架构,将服务卸载问题归约为... 为了在车辆边缘环境下高效地进行服务卸载,同时考虑服务的卸载决策以及边缘服务器和云服务器的协同资源分配,提出一种基于深度强化学习的服务卸载方法。首先提出车辆边缘环境下一种端—边—云协同的服务卸载架构,将服务卸载问题归约为边缘服务器计算和通信资源约束下获得最小平均服务时延的优化问题;然后引入深度Q网络解决优化问题,在学习过程中引入贪婪算法、经验回放机制和双网络机制。通过实验表明,所提方法具有可行性,所提卸载方案性能良好。 展开更多
关键词 服务卸载 端—边—云架构 深度Q网络 深度强化学习 边缘计算
下载PDF
基于深度强化学习的防空反导智能任务分配
2
作者 刘家义 王刚 +2 位作者 夏智权 王思远 付强 《火力与指挥控制》 CSCD 北大核心 2024年第1期43-48,55,共7页
随着作战双方不断采用新技术,信息时代的战争呈现出强博弈对抗性。在分析防空反导任务分配过程和决策的本质基础上,从敌我两个角度深入探讨了强博弈对抗环境下防空反导任务分配所面临的挑战。讨论了基于深度强化学习的防空反导智能任务... 随着作战双方不断采用新技术,信息时代的战争呈现出强博弈对抗性。在分析防空反导任务分配过程和决策的本质基础上,从敌我两个角度深入探讨了强博弈对抗环境下防空反导任务分配所面临的挑战。讨论了基于深度强化学习的防空反导智能任务分配方法的优势,提出了其实际应用所面临的问题,有望解决相关问题的技术途径和方法评价指标,为防空反导智能任务分配提供新思路。 展开更多
关键词 强博弈对抗 防空反导 深度强化学习 任务分配
下载PDF
基于LSTM-Dueling DQN的无人战斗机机动智能决策 被引量:4
3
作者 胡东愿 杨任农 +3 位作者 左家亮 郑万泽 赵雨 张强 《战术导弹技术》 北大核心 2021年第6期97-104,共8页
针对无人作战飞机在一对一自主空战中无法实现智能决策的问题,引入深度强化学习方法,构建无人战斗机战术决策框架,求解智能体对抗的机动指令。首先,建立飞行运动模型和导弹攻击区模型,形成基本的一对一空战对抗环境。其次,利用8个运动... 针对无人作战飞机在一对一自主空战中无法实现智能决策的问题,引入深度强化学习方法,构建无人战斗机战术决策框架,求解智能体对抗的机动指令。首先,建立飞行运动模型和导弹攻击区模型,形成基本的一对一空战对抗环境。其次,利用8个运动变量来构建智能体连续的状态空间,并根据导弹攻击区实时计算结果设计奖惩函数,实现双机对抗决策。最后,使用长短期记忆网络和全连接网络相结合,构建智能体价值网络和目标网络。利用记忆库中的决策样本,对网络进行训练,完成值函数的拟合,实现智能体在任意状态下的决策。仿真试验表明,在典型的案例中,智能体能够有效感知空战场态势,算法给出的决策动作可以积累并保持无人作战飞机的空战优势,完成对目标的打击,决策时间能够满足时效性的要求。 展开更多
关键词 无人战斗机 空战对抗 机动决策 深度强化学习 值函数搜索 长短期记忆网络
原文传递
非全时有效人类决策下的人机共享自主方法
4
作者 游诗艺 康宇 +1 位作者 赵云波 张倩倩 《中国科学:信息科学》 CSCD 北大核心 2022年第12期2165-2177,共13页
在人机共享自主中,人和智能机器以互补的能力共同完成实时控制任务,以实现双方单独控制无法达到的性能.现有的许多人机共享自主方法倾向于假设人的决策始终“有效”,即这些决策促进了任务的完成,且有效地反映了人类的真实意图然而,在现... 在人机共享自主中,人和智能机器以互补的能力共同完成实时控制任务,以实现双方单独控制无法达到的性能.现有的许多人机共享自主方法倾向于假设人的决策始终“有效”,即这些决策促进了任务的完成,且有效地反映了人类的真实意图然而,在现实中,由于疲劳、分心等多种原因,人的决策会在一定程度上“无效”,不满足这些方法的基本假设,导致方法失效,进而导致任务失败本文提出了一种新的基于深度强化学习的人机共享自主方法,使系统能够在人类决策长期无效的情况下完成正确的目标.具体来说,我们使用深度强化学习训练从系统状态和人类决策到决策价值的端到端映射,以显式判断人类决策是否无效.如果无效,机器将接管系统以获得更好的性能.我们将该方法应用于实时控制任务中,结果表明该方法能够及时、准确地判断人类决策的有效性,分配相应的控制权限,并最终提高了系统性能. 展开更多
关键词 人机系统 共享自主 非全时有效决策 深度强化学习 仲裁
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部