-
题名基于改进迁移学习的电力通信网络异常流量识别方法
- 1
-
-
作者
邹毅
-
机构
甘肃电投河西水电开发有限责任公司
-
出处
《消费电子》
2024年第2期64-66,共3页
-
文摘
常受网络异常流量形式多样化的影响,对其进行识别的难度也相对较大,为此,本文提出基于改进迁移学习的电力通信网络异常流量识别方法。考虑电力通信网络自身结构配置下流量源IP地址统计特征的多维属性,构建电力通信网络流量特征属性矩阵,并根据不同源IP地址之间的相似性,以及不同电力通信网络流量之间的关联关系,构建了邻接矩阵。将二者作为训练参数,采用小批量随机采样方式,在Q值函数下达到损失收敛后,将同一时间窗下存在特征属性交叉,且包含于源IP地址的流量作为异常流量的识别结果。在测试结果中,设计方法对于不同类型网络异常流量识别的ACC均达到了0.90以上。
-
关键词
改进迁移学习
电力通信网络
异常流量识别
源IP地址
特征属性矩阵
q值函数
损失收敛
-
分类号
TM7
[电气工程—电力系统及自动化]
-
-
题名基于深度强化学习的机场出租车司机决策方法
- 2
-
-
作者
王鹏勇
陈龚涛
赵江烁
-
机构
中国矿业大学数学学院
-
出处
《计算机与现代化》
2020年第8期94-99,104,共7页
-
基金
中国矿业大学大学生创新训练计划项目(20190510)。
-
文摘
针对以机场为代表的大型交通枢纽出租车调度困难的问题,从出租车司机利益的角度出发,提出一种基于改进深度强化学习的司机决策方法。该方法首先对机场环境和机场所在的城市环境进行模拟,定义了司机的状态、动作,与环境交互获得的奖励和状态转移。然后,以司机的状态参数作为DQN的输入,用DQN拟合状态-动作值函数(Q值函数)。最后,通过不断地让司机根据ε-贪心策略做出决策,并根据奖励函数达到更新DQN参数的目的。实验结果表明:在模拟的大、中、小型城市等环境下,司机都可以通过模型定量地得到当前各种决策动作的期望收益并作出合理的决策,从而自动地完成出租车调度的过程。
-
关键词
出租车调度
深度强化学习
DqN
q值函数
-
Keywords
taxi dispatching
deep reinforcement learning
DqN
q-value function
-
分类号
TP391.9
[自动化与计算机技术—计算机应用技术]
-
-
题名基于样本效率优化的深度强化学习方法综述
被引量:8
- 3
-
-
作者
张峻伟
吕帅
张正昊
于佳玉
龚晓宇
-
机构
符号计算与知识工程教育部重点实验室(吉林大学)
吉林大学计算机科学与技术学院
吉林大学软件学院
-
出处
《软件学报》
EI
CSCD
北大核心
2022年第11期4217-4238,共22页
-
基金
国家重点研发计划(2017YFB1003103)
国家自然科学基金(61300049)
吉林省自然科学基金(20180101053JC)。
-
文摘
深度强化学习将深度学习的表示能力和强化学习的决策能力结合,因在复杂控制任务中效果显著而掀起研究热潮.以是否用Bellman方程为基准,将无模型深度强化学习方法分为Q值函数方法和策略梯度方法,并从模型构建方式、优化历程和方法评估等方面对两类方法分别进行了介绍.针对深度强化学习方法中样本效率低的问题进行讨论,根据两类方法的模型特性,说明了Q值函数方法过高估计问题和策略梯度方法采样无偏性约束分别是两类方法样本效率受限的主要原因.从增强探索效率和提高样本利用率两个角度,根据近年来的研究热点和趋势归纳出各类可行的优化方法,分析相关方法的优势和仍存在的问题,并对比其适用范围和优化效果.最后提出增强样本效率优化方法的通用性、探究两类方法间优化机制的迁移和提高理论完备性作为未来的研究方向.
-
关键词
深度强化学习
q值函数方法
策略梯度方法
样本效率
探索与利用
-
Keywords
deep reinforcement learning
q-value function method
policy gradient method
sample efficiency
exploration and exploitation
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于改进高斯过程回归的云工作流调度算法
被引量:1
- 4
-
-
作者
钟积海
崔得龙
-
机构
广东石油化工学院计算机与电子信息学院
广东省云机器人(石油化工)工程技术研究中心
-
出处
《电子设计工程》
2018年第16期35-39,44,共6页
-
基金
国家自然科学基金项目(61672174)
广东省云机器人(石油化工)工程技术研究中心开放基金(201606A02)
+1 种基金
茂名市石油化工自动化工程技术研究开发中心开放基金
广东石油化工学院大学生创新创业培育计划项目(2016py A032)
-
文摘
随着大数据时代的来临,工作流应用开始由原有的基础设施转移到更加高效、可靠、廉价的云平台上。本文针对现有基于强化学习的云工作流调度算法收敛速度慢的问题,详细分析云工作流任务的执行流程,设计了一种细粒度的云工作流系统模型,提出了一种结合自适应自然梯度高斯过程回归和强化学习的云工作流调度算法。算法采用强化学习的任务分配算法解决虚拟机间负载均衡问题,并通过自适应自然梯度高斯过程回归加速最优策略的生成。在Workflow Sim平台下进行了验证,实验结果证明了本文算法在一定程度上加速了最优策略的收敛。
-
关键词
云计算
云工作流
强化学习
高斯过程回归
q值函数近似
-
Keywords
cloud computing
cloud workflow
reinforcement learning
gaussian process regression
qvalue function approximation
-
分类号
TN92
[电子电信—通信与信息系统]
-