期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于鲁棒交叉熵与梯度优化的安全强化学习方法
1
作者 周娴玮 张锟 叶鑫 《软件导刊》 2024年第9期143-149,共7页
智能体在复杂环境下执行任务时,如何保证安全性和效率性是一个很大的难题。传统强化学习方法解决智能体决策问题时采用无模型的强化学习,利用大量数据不断试错寻找最优策略,忽略了智能体的训练成本和安全风险,因此无法有效保证决策的安... 智能体在复杂环境下执行任务时,如何保证安全性和效率性是一个很大的难题。传统强化学习方法解决智能体决策问题时采用无模型的强化学习,利用大量数据不断试错寻找最优策略,忽略了智能体的训练成本和安全风险,因此无法有效保证决策的安全性。为此,在模型预测控制框架下对智能体动作添加安全约束条件,设计安全强化学习算法获得最安全的动作控制序列。同时,针对交叉熵方法存在计算量大与效率低、梯度优化方法存在着陷入局部最优的问题,结合鲁棒交叉熵与梯度优化方法优化动作控制序列,以提升算法安全性和求解效率。实验表明,所提方法相较于鲁棒交叉熵法能有效提升收敛速度,相较于其他优化算法在不损失较多性能的前提下安全性能最优。 展开更多
关键词 强化学习 交叉 梯度优化 安全性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部