期刊文献+
共找到19篇文章
< 1 >
每页显示 20 50 100
基于DDPG算法的无人机集群追击任务 被引量:28
1
作者 张耀中 许佳林 +1 位作者 姚康佳 刘洁凌 《航空学报》 EI CAS CSCD 北大核心 2020年第10期309-321,共13页
无人机的集群化应用技术是近年来的研究热点,随着无人机自主智能的不断提高,无人机集群技术必将成为未来无人机发展的主要趋势之一。针对无人机集群协同执行对敌方来袭目标的追击任务,构建了典型的任务场景,基于深度确定性策略梯度网络(... 无人机的集群化应用技术是近年来的研究热点,随着无人机自主智能的不断提高,无人机集群技术必将成为未来无人机发展的主要趋势之一。针对无人机集群协同执行对敌方来袭目标的追击任务,构建了典型的任务场景,基于深度确定性策略梯度网络(DDPG)算法,设计了一种引导型回报函数有效解决了深度强化学习在长周期任务下的稀疏回报问题,通过引入基于滑动平均值的软更新策略减少了DDPG算法中Eval网络和Target网络在训练过程中的参数震荡,提高了算法的训练效率。仿真结果表明,训练完成后的无人机集群能够较好地执行对敌方来袭目标的追击任务,任务成功率达到95%。可以说无人机集群技术作为一种全新概念的作战模式在军事领域具有潜在的应用价值,人工智能算法在无人机集群的自主决策智能化发展方向上具有一定的应用前景。 展开更多
关键词 DDPG算法 无人机集群 任务决策 深度强化学习 稀疏回报
原文传递
基于深度强化学习的智能空战决策与仿真 被引量:12
2
作者 周攀 黄江涛 +3 位作者 章胜 刘刚 舒博文 唐骥罡 《航空学报》 EI CAS CSCD 北大核心 2023年第4期94-107,共14页
飞行器空战智能决策是当今世界各军事强国的研究热点。为解决近距空战博弈中无人机的机动决策问题,提出一种基于深度强化学习方法的无人机近距空战格斗自主决策模型。决策模型中,采取并改进了一种综合考虑攻击角度优势、速度优势、高度... 飞行器空战智能决策是当今世界各军事强国的研究热点。为解决近距空战博弈中无人机的机动决策问题,提出一种基于深度强化学习方法的无人机近距空战格斗自主决策模型。决策模型中,采取并改进了一种综合考虑攻击角度优势、速度优势、高度优势和距离优势的奖励函数,改进后的奖励函数避免了智能体被敌机诱导坠地的问题,同时可以有效引导智能体向最优解收敛。针对强化学习中随机采样带来的收敛速度慢的问题,设计了基于价值的经验池样本优先度排序方法,在保证算法收敛的前提下,显著加快了算法收敛速度。基于人机对抗仿真平台对决策模型进行验证,结果表明智能决策模型能够在近距空战过程中压制专家系统和驾驶员。 展开更多
关键词 空战 自主决策 深度强化学习 TD3算法 稀疏奖励
原文传递
规则耦合下的多异构子网络MADDPG博弈对抗算法
3
作者 张钰欣 赵恩娇 赵玉新 《智能系统学报》 CSCD 北大核心 2024年第1期190-208,共19页
针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模... 针对多无人机博弈对抗过程中无人机数量动态衰减问题和传统深度强化学习算法中的稀疏奖励问题及无效经验抽取频率过高问题,本文以攻防能力及通信范围受限条件下的多无人机博弈对抗任务为研究背景,构建了红、蓝两方无人机群的博弈对抗模型,在多智能体深度确定性策略梯度(multi-agent deep deterministic policy gradient,MADDPG)算法的Actor-Critic框架下,根据博弈环境的特点对原始的MADDPG算法进行改进。为了进一步提升算法对有效经验的探索和利用,本文构建了规则耦合模块以在无人机的决策过程中对Actor网络进行辅助。仿真实验表明,本文设计的算法在收敛速度、学习效率和稳定性方面都取了一定的提升,异构子网络的引入使算法更适用于无人机数量动态衰减的博弈场景;奖励势函数和重要性权重耦合的优先经验回放方法提升了经验差异的细化程度及优势经验利用率;规则耦合模块的引入实现了无人机决策网络对先验知识的有效利用。 展开更多
关键词 深度强化学习 多无人机 博弈对抗 MADDPG Actor-Critic 规则耦合 经验回放 稀疏奖励
下载PDF
基于分层强化学习的自动驾驶车辆掉头问题研究 被引量:1
4
作者 曹洁 邵紫旋 侯亮 《计算机应用研究》 CSCD 北大核心 2022年第10期3008-3012,3045,共6页
调头任务是自动驾驶研究的内容之一,大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题,建立了一种车辆掉头动力学模型,并设计了一种多尺度卷积神经网络提取特征图作为智能体的输入。另外还针对调头任务中的稀疏奖励问... 调头任务是自动驾驶研究的内容之一,大多数在城市规范道路下的方案无法在非规范道路上实施。针对这一问题,建立了一种车辆掉头动力学模型,并设计了一种多尺度卷积神经网络提取特征图作为智能体的输入。另外还针对调头任务中的稀疏奖励问题,结合分层强化学习和近端策略优化算法提出了分层近端策略优化算法。在简单和复杂场景的实验中,该算法相比于其他算法能够更快地学习到策略,并且具有更高的掉头成功率。 展开更多
关键词 分层强化学习 汽车掉头 稀疏奖励 近端策略优化
下载PDF
深度强化学习理论及其应用综述 被引量:67
5
作者 万里鹏 兰旭光 +1 位作者 张翰博 郑南宁 《模式识别与人工智能》 EI CSCD 北大核心 2019年第1期67-81,共15页
一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题... 一方面,随着深度强化学习理论和应用研究不断深入,其在游戏、机器人控制、对话系统、自动驾驶等领域发挥重要作用;另一方面,深度强化学习受到探索-利用困境、奖励稀疏、样本采集困难、稳定性较差等问题的限制,存在很多不足.面对这些问题,研究者们提出各种各样的解决方法,新的理论进一步推动深度强化学习的发展,在弥补缺陷的同时扩展强化学习的研究领域,延伸出模仿学习、分层强化学习、元学习等新的研究方向.文中从深度强化学习的理论、困难、应用及发展前景等方面对其进行探讨. 展开更多
关键词 深度强化学习 马尔科夫决策过程 探索-利用困境 稀疏奖励
下载PDF
深度强化学习中稀疏奖励问题研究综述 被引量:36
6
作者 杨惟轶 白辰甲 +2 位作者 蔡超 赵英男 刘鹏 《计算机科学》 CSCD 北大核心 2020年第3期182-191,共10页
强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能... 强化学习作为机器学习的重要分支,是在与环境交互中寻找最优策略的一类方法。强化学习近年来与深度学习进行了广泛结合,形成了深度强化学习的研究领域。作为一种崭新的机器学习方法,深度强化学习同时具有感知复杂输入和求解最优策略的能力,可以应用于机器人控制等复杂决策问题。稀疏奖励问题是深度强化学习在解决任务中面临的核心问题,在实际应用中广泛存在。解决稀疏奖励问题有利于提升样本的利用效率,提高最优策略的水平,推动深度强化学习在实际任务中的广泛应用。文中首先对深度强化学习的核心算法进行阐述;然后介绍稀疏奖励问题的5种解决方案,包括奖励设计与学习、经验回放机制、探索与利用、多目标学习和辅助任务等;最后对相关研究工作进行总结和展望。 展开更多
关键词 深度强化学习 深度学习 强化学习 稀疏奖励 人工智能
下载PDF
基于改进深度强化学习的移动机器人路径规划 被引量:18
7
作者 王军 杨云霄 李莉 《电子测量技术》 北大核心 2021年第22期19-24,共6页
针对传统深度强化学习中移动机器人在稀疏奖励环境下只有在规定时间步内到达目标位置才能得到积极奖励,中间过程的每一步都是负面奖励的路径规划问题。提出了基于改进深度Q网络的路径规划方法,在移动机器人在探索过程中,对以真实目标为... 针对传统深度强化学习中移动机器人在稀疏奖励环境下只有在规定时间步内到达目标位置才能得到积极奖励,中间过程的每一步都是负面奖励的路径规划问题。提出了基于改进深度Q网络的路径规划方法,在移动机器人在探索过程中,对以真实目标为条件的轨迹进行采样,在经验回放过程中,把移动机器人已经到达的状态来代替真正的目标,这样移动机器人可以获得足够的积极奖励信号来开始学习。通过深度卷积神经网络模型,将原始RGB图像作为输入,通过端对端的方法训练,利用置信区间上界探索策略和小批量样本的方法训练神经网络参数,最后得到上、下、左、右4个动作的Q值。在相同的仿真环境中结果表明,该算法提升了采样效率,训练迭代更快,并且更容易收敛,避开障碍物到达终点的成功率增加40%左右,一定程度上解决了稀疏奖励带来的问题。 展开更多
关键词 深度强化学习 路径规划 稀疏奖励 移动机器人 后见经验回放
下载PDF
基于近端策略优化的作战实体博弈对抗算法 被引量:18
8
作者 张振 黄炎焱 +1 位作者 张永亮 陈天德 《南京理工大学学报》 EI CAS CSCD 北大核心 2021年第1期77-83,共7页
针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的... 针对一种大地图和稀疏奖励的兵棋推演对抗环境下,单纯的深度强化学习算法会导致训练无法快速收敛以及智能体对抗特定规则智能体胜率较低的问题,提出了一种基于监督学习和深度强化学习相结合以及设置额外奖励的方法,旨在提升智能博弈的训练效果。使用监督学习训练智能体;研究基于近端策略优化(Proximal policy optimization,PPO)的对抗算法;改进强化学习训练过程的额外奖励设置。以某在研兵棋推演环境为例的实验结果表明,该博弈对抗算法能使智能体在对抗其他智能体时的胜率稳步提升并在较短时间内达到收敛。 展开更多
关键词 兵棋推演 深度强化学习 监督学习 近端策略优化 稀疏奖励
下载PDF
强化学习稀疏奖励算法研究——理论与实验 被引量:17
9
作者 杨瑞 严江鹏 李秀 《智能系统学报》 CSCD 北大核心 2020年第5期888-899,共12页
近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应... 近年来,强化学习在游戏、机器人控制等序列决策领域都获得了巨大的成功,但是大量实际问题中奖励信号十分稀疏,导致智能体难以从与环境的交互中学习到最优的策略,这一问题被称为稀疏奖励问题。稀疏奖励问题的研究能够促进强化学习实际应用与落地,在强化学习理论研究中具有重要意义。本文调研了稀疏奖励问题的研究现状,以外部引导信息为线索,分别介绍了奖励塑造、模仿学习、课程学习、事后经验回放、好奇心驱动、分层强化学习等方法。本文在稀疏奖励环境Fetch Reach上实现了以上6类方法的代表性算法进行实验验证和比较分析。使用外部引导信息的算法平均表现好于无外部引导信息的算法,但是后者对数据的依赖性更低,两类方法均具有重要的研究意义。最后,本文对稀疏奖励算法研究进行了总结与展望。 展开更多
关键词 强化学习 深度强化学习 机器学习 稀疏奖励 神经网络 人工智能 深度学习
下载PDF
基于改进好奇心的深度强化学习方法
10
作者 乔和 李增辉 +1 位作者 刘春 胡嗣栋 《计算机应用研究》 CSCD 北大核心 2024年第9期2635-2640,共6页
在深度强化学习方法中,针对内在好奇心模块(intrinsic curiosity model,ICM)指导智能体在稀疏奖励环境中获得未知策略学习的机会,但好奇心奖励是一个状态差异值,会使智能体过度关注于对新状态的探索,进而出现盲目探索的问题,提出了一种... 在深度强化学习方法中,针对内在好奇心模块(intrinsic curiosity model,ICM)指导智能体在稀疏奖励环境中获得未知策略学习的机会,但好奇心奖励是一个状态差异值,会使智能体过度关注于对新状态的探索,进而出现盲目探索的问题,提出了一种基于知识蒸馏的内在好奇心改进算法(intrinsic curiosity model algorithm based on knowledge distillation,KD-ICM)。首先,该算法引入知识蒸馏的方法,使智能体在较短的时间内获得更丰富的环境信息和策略知识,加速学习过程;其次,通过预训练教师神经网络模型去引导前向网络,得到更高精度和性能的前向网络模型,减少智能体的盲目探索。在Unity仿真平台上设计了两个不同的仿真实验进行对比,实验表明,在复杂仿真任务环境中,KD-ICM算法的平均奖励比ICM提升了136%,最优动作概率比ICM提升了13.47%,提升智能体探索性能的同时能提高探索的质量,验证了算法的可行性。 展开更多
关键词 深度强化学习 知识蒸馏 近端策略优化 稀疏奖励 内在好奇心
下载PDF
基于自适应增强随机搜索的航天器追逃博弈策略研究
11
作者 焦杰 苟永杰 +1 位作者 吴文博 泮斌峰 《西北工业大学学报》 EI CAS CSCD 北大核心 2024年第1期117-128,共12页
针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方... 针对航天器与非合作目标追逃博弈的生存型微分对策拦截问题,基于强化学习研究了追逃博弈策略,提出了自适应增强随机搜索(adaptive-augmented random search,A-ARS)算法。针对序贯决策的稀疏奖励难题,设计了基于策略参数空间扰动的探索方法,加快策略收敛速度;针对可能过早陷入局部最优问题设计了新颖度函数并引导策略更新,可提升数据利用效率;通过数值仿真验证并与增强随机搜索(augmented random search,ARS)、近端策略优化算法(proximal policy optimization,PPO)以及深度确定性策略梯度下降算法(deep deterministic policy gradient,DDPG)进行对比,验证了此方法的有效性和先进性。 展开更多
关键词 非合作目标 追逃博弈 微分对策 强化学习 稀疏奖励
下载PDF
结合先验知识的SAC神经纤维追踪算法及应用
12
作者 林佳俐 李永强 +1 位作者 赵硕 冯远静 《小型微型计算机系统》 CSCD 北大核心 2024年第7期1719-1727,共9页
扩散磁共振成像是目前唯一的非侵入式神经纤维成像方法.针对现有的纤维追踪算法在交叉、分叉等复杂纤维结构上存在无效连接率高或者无连接率高的问题,本文提出了基于先验知识的Soft-Actor-Critic纤维追踪算法;设计了基于球谐函数模型的... 扩散磁共振成像是目前唯一的非侵入式神经纤维成像方法.针对现有的纤维追踪算法在交叉、分叉等复杂纤维结构上存在无效连接率高或者无连接率高的问题,本文提出了基于先验知识的Soft-Actor-Critic纤维追踪算法;设计了基于球谐函数模型的单步奖励和基于解剖学结构的稀疏奖励;结合六邻域体素的球谐函数信息,保证空间一致性;将先前时刻的动作作为决策网络的输入,增强智能体对时序动作的利用.在Fibercup数据集上,有效连接率达到78.1%,并且显著降低了无效链接率和无连接率.此外,还将该方法成功应用到视神经这类长距离、带噪声并且包含交叉区域的复杂结构的重建上.实验结果表明本文方法可以完成复杂结构的重建,并且有效降低错误连接率. 展开更多
关键词 深度强化学习 稀疏奖励 神经纤维追踪 视神经
下载PDF
稀疏奖励下多航天器规避决策自学习仿真 被引量:5
13
作者 赵毓 郭继峰 +1 位作者 颜鹏 白成超 《系统仿真学报》 CAS CSCD 北大核心 2021年第8期1766-1774,共9页
为了提高航天器编队对多拦截器规避能力,针对传统程序式机动规避成功率低的问题,提出一种基于深度强化学习的多智能体协同自主规避决策方法。其中基于Actor-Critic架构设计了一种多智能体强化学习算法,为解决该自学习算法信度分配问题,... 为了提高航天器编队对多拦截器规避能力,针对传统程序式机动规避成功率低的问题,提出一种基于深度强化学习的多智能体协同自主规避决策方法。其中基于Actor-Critic架构设计了一种多智能体强化学习算法,为解决该自学习算法信度分配问题,提出加权线性拟合方法;对于任务场景稀疏奖励问题,提出基于逆值法的稀疏奖励强化学习方法。根据规避任务决策过程建立了空间多智能体对抗仿真系统,利用其验证了所提算法的正确性和有效性。 展开更多
关键词 多智能体 强化学习 稀疏奖励 规避机动 自主决策
下载PDF
多智能体深度确定性策略梯度算法研究与改进 被引量:1
14
作者 劳天成 刘义 范文慧 《新疆大学学报(自然科学版)(中英文)》 CAS 2023年第6期717-723,共7页
针对多智能体深度确定性策略梯度算法(MADDPG)在某些场景下,尤其是在部分可观察环境与稀疏奖励条件下,不一定能学习到最优策略的问题,采用观察叠加法和在深度网络中加入长短期记忆网络(Long Short-Term Memory,LSTM)层的方法对MADDPG算... 针对多智能体深度确定性策略梯度算法(MADDPG)在某些场景下,尤其是在部分可观察环境与稀疏奖励条件下,不一定能学习到最优策略的问题,采用观察叠加法和在深度网络中加入长短期记忆网络(Long Short-Term Memory,LSTM)层的方法对MADDPG算法进行了改进,通过含遮蔽区的捕食者-猎物场景验证了改进的算法在智能体决策上的有效性;引入后验经验回放(Hindsight Experience Replay,HER)方法对MADDPG算法进行了改进,通过合作通讯场景和合作导航场景的对比实验验证了改进的算法能够使智能体获得的高价值经验大大增加,可以提高MADDPG算法收敛速度,有助于智能体学习到最优策略. 展开更多
关键词 多智能体 深度强化学习 部分可观察 稀疏奖励
下载PDF
稀疏奖励下基于强化学习的异构多智能体对抗 被引量:2
15
作者 王瑞星 董诗音 +1 位作者 江飞龙 黄胜全 《信息技术》 2021年第5期12-20,共9页
文中在多智能体对抗问题研究过程中,采用强化学习为研究方法,以完全中心化训练架构为基础,选用基于策略的强化学习算法,针对领域研究中广泛存在的稀疏奖励问题,采用基于任务局部的奖励工程设定方法,以人为经验知识为导引,加速训练过程,... 文中在多智能体对抗问题研究过程中,采用强化学习为研究方法,以完全中心化训练架构为基础,选用基于策略的强化学习算法,针对领域研究中广泛存在的稀疏奖励问题,采用基于任务局部的奖励工程设定方法,以人为经验知识为导引,加速训练过程,提升训练结果。最后以对抗问题中典型的攻防对抗为场景进行了仿真实验,验证了方法的有效性。 展开更多
关键词 多智能体博弈 强化学习 稀疏奖励 基于任务局部的奖励工程设定
下载PDF
基于深度强化学习的多目标无人机路径规划 被引量:1
16
作者 陈昱宏 高飞飞 《无线电通信技术》 2022年第6期957-970,共14页
在搜救领域中,透过程序完成半自主或自主飞行控制,无人机能够协助救难人员更好地完成救援任务。搜救任务中涉及到多个目标间的搜索,相比于单目标的搜索问题,需要更复杂的算法或是奖励重塑形式,才能改进其稀疏奖励的问题。此外,搜救任务... 在搜救领域中,透过程序完成半自主或自主飞行控制,无人机能够协助救难人员更好地完成救援任务。搜救任务中涉及到多个目标间的搜索,相比于单目标的搜索问题,需要更复杂的算法或是奖励重塑形式,才能改进其稀疏奖励的问题。此外,搜救任务比起一般的强化学习问题,更讲究时效性。如何利用搜救的先验知识对算法进行改进,从而提高完成任务的效率和训练时间,是机器学习应用的研究重点。针对搜救任务背景,研究了无人机在多目标问题下的路径规划问题。基于分层学习的概念对已有的深度强化学习算法进行了改进,提出了适用于多目标任务的深度强化学习算法——MTDDPG。该算法结合环境分区和奖励重塑,利用环境分区对搜救场景进行简化,从而缩短训练时间,再通过奖励重塑的方式提升任务完成的效率,提升了MTDDPG算法在多目标搜救任务上的训练速度和效率。利用程序仿真设计三个实验对算法进行验证,并基于不同的先验信息对环境进行建模实验,对比不同算法在多目标任务中的实验结果。此外,根据先验信息的完整与否,对比MTDDPG在不同先验信息完整度的场景下训练的结果,结果表明MTDDPG在多目标搜救任务上,可以有效地解决搜索问题,完成指定的搜救任务。 展开更多
关键词 多目标 稀疏奖励 分层学习 室内搜救 无人机
下载PDF
稀疏奖励下基于MADDPG算法的多智能体协同 被引量:1
17
作者 许诺 杨振伟 《现代计算机》 2020年第15期47-51,共5页
深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG算法。在此基础上,重点针对连续奖励函数设计困难的场景,提出... 深度强化学习中最大的问题是对定制化的奖赏工程(Manual Reward Engineering)的依赖,扩展至多智能体协同场景时,这一问题更加显著。提出一种带神经网络参数共享机制的MADDPG算法。在此基础上,重点针对连续奖励函数设计困难的场景,提出一种基于群体目标状态的奖励函数。针对这种奖励函数下,奖励值稀疏,影响学习速率,将基于优先级的经验重放方法扩展至多智能体领域,提高样本利用率,挖掘训练潜能。最后在合作导航场景中进行仿真实验,验证方法的有效性。 展开更多
关键词 深度强化学习 多智能体 稀疏奖励 经验重放
下载PDF
深度强化学习TD3算法在倒立摆系统中的应用 被引量:3
18
作者 何卫东 刘小臣 +1 位作者 张迎辉 姚世选 《大连交通大学学报》 CAS 2023年第1期38-44,共7页
针对现有控制算法在倒立摆系统控制中存在的局限性,融合强化学习和深度学习方法,提出一种基于双延迟深度确定性策略梯度(TD3)的倒立摆端到端控制方法。首先,利用倒立摆动力学模型搭建虚拟仿真环境,设计稀疏奖励函数;其次,通过深度神经... 针对现有控制算法在倒立摆系统控制中存在的局限性,融合强化学习和深度学习方法,提出一种基于双延迟深度确定性策略梯度(TD3)的倒立摆端到端控制方法。首先,利用倒立摆动力学模型搭建虚拟仿真环境,设计稀疏奖励函数;其次,通过深度神经网络构建从倒立摆状态输入到执行动作输出的端到端控制模型,分析倒立摆特性,来确定神经网络结构和参数;最后,将虚拟仿真环境中生成的模型移植到倒立摆实物平台并进行优化。试验结果表明:该方法生成的模型能够有效地建立倒立摆状态和执行动作之间的映射关系,在运动控制中具有一定的借鉴意义。 展开更多
关键词 深度强化学习 倒立摆控制 TD3 端到端 稀疏奖励函数
下载PDF
基于分层的智能建模方法的多机空战行为建模 被引量:1
19
作者 王宇琨 王泽 +1 位作者 董力维 李妮 《系统仿真学报》 CAS CSCD 北大核心 2023年第10期2249-2261,共13页
针对多机空战对抗场景中高维状态-行为空间约束下兵力博弈决策困难的问题,采用基于深度强化学习的兵力智能体决策生成策略,提出面向兵力智能博弈的态势认知和奖励回报生成算法,构建基于混合的智能建模方法的行为建模分层框架。解决了强... 针对多机空战对抗场景中高维状态-行为空间约束下兵力博弈决策困难的问题,采用基于深度强化学习的兵力智能体决策生成策略,提出面向兵力智能博弈的态势认知和奖励回报生成算法,构建基于混合的智能建模方法的行为建模分层框架。解决了强化学习过程中存在的稀疏奖励技术难点,为解决大规模、多机型、要素多的空战问题提供一种可行的强化学习训练方法。 展开更多
关键词 作战仿真 多智能体 深度强化学习 非稀疏奖励函数
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部