期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于改进迁移学习的电力通信网络异常流量识别方法
1
作者 邹毅 《消费电子》 2024年第2期64-66,共3页
常受网络异常流量形式多样化的影响,对其进行识别的难度也相对较大,为此,本文提出基于改进迁移学习的电力通信网络异常流量识别方法。考虑电力通信网络自身结构配置下流量源IP地址统计特征的多维属性,构建电力通信网络流量特征属性矩阵... 常受网络异常流量形式多样化的影响,对其进行识别的难度也相对较大,为此,本文提出基于改进迁移学习的电力通信网络异常流量识别方法。考虑电力通信网络自身结构配置下流量源IP地址统计特征的多维属性,构建电力通信网络流量特征属性矩阵,并根据不同源IP地址之间的相似性,以及不同电力通信网络流量之间的关联关系,构建了邻接矩阵。将二者作为训练参数,采用小批量随机采样方式,在Q值函数下达到损失收敛后,将同一时间窗下存在特征属性交叉,且包含于源IP地址的流量作为异常流量的识别结果。在测试结果中,设计方法对于不同类型网络异常流量识别的ACC均达到了0.90以上。 展开更多
关键词 改进迁移学习 电力通信网络 异常流量识别 源IP地址 特征属性矩阵 q函数 损失收敛
下载PDF
基于深度强化学习的机场出租车司机决策方法
2
作者 王鹏勇 陈龚涛 赵江烁 《计算机与现代化》 2020年第8期94-99,104,共7页
针对以机场为代表的大型交通枢纽出租车调度困难的问题,从出租车司机利益的角度出发,提出一种基于改进深度强化学习的司机决策方法。该方法首先对机场环境和机场所在的城市环境进行模拟,定义了司机的状态、动作,与环境交互获得的奖励和... 针对以机场为代表的大型交通枢纽出租车调度困难的问题,从出租车司机利益的角度出发,提出一种基于改进深度强化学习的司机决策方法。该方法首先对机场环境和机场所在的城市环境进行模拟,定义了司机的状态、动作,与环境交互获得的奖励和状态转移。然后,以司机的状态参数作为DQN的输入,用DQN拟合状态-动作值函数(Q值函数)。最后,通过不断地让司机根据ε-贪心策略做出决策,并根据奖励函数达到更新DQN参数的目的。实验结果表明:在模拟的大、中、小型城市等环境下,司机都可以通过模型定量地得到当前各种决策动作的期望收益并作出合理的决策,从而自动地完成出租车调度的过程。 展开更多
关键词 出租车调度 深度强化学习 DqN q函数
下载PDF
基于样本效率优化的深度强化学习方法综述 被引量:8
3
作者 张峻伟 吕帅 +2 位作者 张正昊 于佳玉 龚晓宇 《软件学报》 EI CSCD 北大核心 2022年第11期4217-4238,共22页
深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等... 深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向. 展开更多
关键词 深度强化学习 q函数方法 策略梯度方法 样本效率 探索与利用
下载PDF
基于改进高斯过程回归的云工作流调度算法 被引量:1
4
作者 钟积海 崔得龙 《电子设计工程》 2018年第16期35-39,44,共6页
随着大数据时代的来临,工作流应用开始由原有的基础设施转移到更加高效、可靠、廉价的云平台上。本文针对现有基于强化学习的云工作流调度算法收敛速度慢的问题,详细分析云工作流任务的执行流程,设计了一种细粒度的云工作流系统模型,提... 随着大数据时代的来临,工作流应用开始由原有的基础设施转移到更加高效、可靠、廉价的云平台上。本文针对现有基于强化学习的云工作流调度算法收敛速度慢的问题,详细分析云工作流任务的执行流程,设计了一种细粒度的云工作流系统模型,提出了一种结合自适应自然梯度高斯过程回归和强化学习的云工作流调度算法。算法采用强化学习的任务分配算法解决虚拟机间负载均衡问题,并通过自适应自然梯度高斯过程回归加速最优策略的生成。在Workflow Sim平台下进行了验证,实验结果证明了本文算法在一定程度上加速了最优策略的收敛。 展开更多
关键词 云计算 云工作流 强化学习 高斯过程回归 q函数近似
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部