期刊导航
期刊开放获取
cqvip
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于深度强化学习的自适应股票交易策略
被引量:
1
1
作者
孙志磊
唐俊洋
+4 位作者
丰硕
刘炜
兰雪锋
张文珠
赵澄
《浙江工业大学学报》
CAS
北大核心
2024年第2期188-195,共8页
股票交易策略的制定在金融市场投资中起着至关重要的作用。为帮助投资者在多变复杂的股票市场作出最优决策,降低制定投资策略的难度,基于LSTM-SAC模型构建自适应股票交易策略。首先,将堆叠式长短期记忆网络(Long short-term memory,LSTM...
股票交易策略的制定在金融市场投资中起着至关重要的作用。为帮助投资者在多变复杂的股票市场作出最优决策,降低制定投资策略的难度,基于LSTM-SAC模型构建自适应股票交易策略。首先,将堆叠式长短期记忆网络(Long short-term memory,LSTM)预测的股票收益率与股票历史数据相结合来表示市场状况;其次,根据观测的市场信息强化学习智能体,基于自动熵调节(Soft actor-critic,SAC)进行自我交易决策调整以适应市场变化;最后,以微分夏普比率作为智能体学习的目标函数以平衡利益和风险,同时优化交易频率以降低交易成本。研究结果表明:相较于其他股票交易策略,该策略在道琼斯30和上证50市场均具有较高的年化收益,验证了其在不同市场的有效性和稳定性。
展开更多
关键词
深度强化学习
股票交易策略
堆叠式长短期记忆网络
柔性
演员
评论家
下载PDF
职称材料
基于改进强化学习的移动机器人动态避障方法
被引量:
5
2
作者
徐建华
邵康康
+1 位作者
王佳惠
刘学聪
《中国惯性技术学报》
EI
CSCD
北大核心
2023年第1期92-99,共8页
针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯...
针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯度引导和角度梯度引导促使移动机器人向终点方向优化,加快算法的收敛速度;结合卷积神经网络从多维观测数据中提取高质量特征,提升策略训练效果。仿真试验结果表明,在多动态障碍物环境下,所提方法的训练速度提升40%、轨迹长度缩短2.69%以上、平均线速度增加11.87%以上,与现有主流避障方法相比,具有规划轨迹短、行驶速度快、性能稳定等优点,能够实现移动机器人在多障碍物环境下平稳避障。
展开更多
关键词
移动机器人
动态避障
强化学习
柔性
演员
评论家
算法
卷积神经网络
下载PDF
职称材料
基于改进柔性演员评论家算法的研究
被引量:
2
3
作者
胡仕柯
赵海军
《太原师范学院学报(自然科学版)》
2021年第3期48-52,共5页
针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更...
针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更佳的收敛速度与稳定性.
展开更多
关键词
深度强化学习
柔性
演员
评论家
算法
内在好奇心
样本利用效率
下载PDF
职称材料
基于柔性演员-评论家算法的自适应巡航控制研究
被引量:
4
4
作者
赵克刚
石翠铎
+2 位作者
梁志豪
李梓棋
王玉龙
《汽车技术》
CSCD
北大核心
2023年第3期26-34,共9页
针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数...
针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率。将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果。
展开更多
关键词
自适应巡航控制
柔性
演员
-
评论家
可迁移性
深度强化学习
下载PDF
职称材料
基于最大熵深度强化学习的双足机器人步态控制方法
被引量:
1
5
作者
李源潮
陶重犇
王琛
《计算机应用》
CSCD
北大核心
2024年第2期445-451,共7页
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相...
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。
展开更多
关键词
双足机器人
步态控制
深度强化学习
最大熵
柔性
演员
-
评论家
算法
下载PDF
职称材料
基于柔性演员-评论家算法的决策规划协同研究
被引量:
1
6
作者
唐斌
刘光耀
+3 位作者
江浩斌
田宁
米伟
王春宏
《交通运输系统工程与信息》
EI
CSCD
北大核心
2024年第2期105-113,187,共10页
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与...
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。
展开更多
关键词
智能交通
自动驾驶
柔性
演员
-
评论家
算法
决策规划协同
深度强化学习
下载PDF
职称材料
基于多智能体柔性演员-评论家学习的服务功能链部署算法
被引量:
2
7
作者
唐伦
李师锐
+1 位作者
杜雨聪
陈前斌
《电子与信息学报》
EI
CSCD
北大核心
2023年第8期2893-2901,共9页
针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SF...
针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SFC端到端时延和网络资源预留阈值约束。其次,将随机优化问题转化为马尔可夫决策过程(MDP),实现SFC动态部署和资源的均衡调度,还进一步提出基于业务分工的多决策者编排方案。最后,在分布式多智能体系统中采用柔性演员-评论家(SAC)算法以增强探索能力,并引入了中央注意力机制和优势函数,能够动态和有选择性地关注获取更大部署回报的信息。仿真结果表明,所提算法可以实现负载惩罚、时延和部署成本的优化,并随业务请求量的增加能更好地扩展。
展开更多
关键词
网络功能虚拟化
服务功能链
柔性
演员
-
评论家
学习
多智能体强化学习
下载PDF
职称材料
题名
基于深度强化学习的自适应股票交易策略
被引量:
1
1
作者
孙志磊
唐俊洋
丰硕
刘炜
兰雪锋
张文珠
赵澄
机构
浙江工业大学计算机科学与技术学院、软件学院
浙江工业大学机械工程学院
浙江工业大学经济学院
浙江工业大学信息化办公室
浙江万安科技股份有限公司
出处
《浙江工业大学学报》
CAS
北大核心
2024年第2期188-195,共8页
基金
国家自然科学基金资助项目(61902349)。
文摘
股票交易策略的制定在金融市场投资中起着至关重要的作用。为帮助投资者在多变复杂的股票市场作出最优决策,降低制定投资策略的难度,基于LSTM-SAC模型构建自适应股票交易策略。首先,将堆叠式长短期记忆网络(Long short-term memory,LSTM)预测的股票收益率与股票历史数据相结合来表示市场状况;其次,根据观测的市场信息强化学习智能体,基于自动熵调节(Soft actor-critic,SAC)进行自我交易决策调整以适应市场变化;最后,以微分夏普比率作为智能体学习的目标函数以平衡利益和风险,同时优化交易频率以降低交易成本。研究结果表明:相较于其他股票交易策略,该策略在道琼斯30和上证50市场均具有较高的年化收益,验证了其在不同市场的有效性和稳定性。
关键词
深度强化学习
股票交易策略
堆叠式长短期记忆网络
柔性
演员
评论家
Keywords
deep reinforcement learning
stock trading strategy
stacked long short-term memory
soft actor-critic
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进强化学习的移动机器人动态避障方法
被引量:
5
2
作者
徐建华
邵康康
王佳惠
刘学聪
机构
北京理工大学自动化学院
出处
《中国惯性技术学报》
EI
CSCD
北大核心
2023年第1期92-99,共8页
基金
装备重大基础研究项目(5140502A03)。
文摘
针对未知环境下移动机器人动态避障存在规划轨迹长、行驶速度慢和鲁棒性差等问题,提出一种基于改进强化学习的移动机器人动态避障方法。移动机器人根据自身速度、目标位置和激光雷达信息直接得到动作信号,实现端到端的控制。基于距离梯度引导和角度梯度引导促使移动机器人向终点方向优化,加快算法的收敛速度;结合卷积神经网络从多维观测数据中提取高质量特征,提升策略训练效果。仿真试验结果表明,在多动态障碍物环境下,所提方法的训练速度提升40%、轨迹长度缩短2.69%以上、平均线速度增加11.87%以上,与现有主流避障方法相比,具有规划轨迹短、行驶速度快、性能稳定等优点,能够实现移动机器人在多障碍物环境下平稳避障。
关键词
移动机器人
动态避障
强化学习
柔性
演员
评论家
算法
卷积神经网络
Keywords
mobile robot
dynamic obstacle avoidance
reinforcement learning
soft actor-critic
convolutional neural network
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于改进柔性演员评论家算法的研究
被引量:
2
3
作者
胡仕柯
赵海军
机构
西华师范大学计算机学院
出处
《太原师范学院学报(自然科学版)》
2021年第3期48-52,共5页
基金
西华师范大学基本科研业务费专项资金资助项目(14C002).
文摘
针对柔性演员评论家算法训练速度慢且训练过程不稳定的问题,提出了一种改进柔性演员评论家算法.通过在原有算法中引入内在好奇心机制,提高智能体探索能力与样本利用效率,并在仿真环境中用于求解倒立摆问题,实验结果表明文章算法具有更佳的收敛速度与稳定性.
关键词
深度强化学习
柔性
演员
评论家
算法
内在好奇心
样本利用效率
Keywords
deep reinforcement learning
soft actor-critic
intrinsic curiosity module
sample utilization efficiency
分类号
TP273 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于柔性演员-评论家算法的自适应巡航控制研究
被引量:
4
4
作者
赵克刚
石翠铎
梁志豪
李梓棋
王玉龙
机构
华南理工大学
湖南大学
出处
《汽车技术》
CSCD
北大核心
2023年第3期26-34,共9页
基金
广东省重点领域研发项目(2019B090912001)。
文摘
针对目前自适应巡航控制技术中,深度强化学习的控制算法环境适应能力不足、模型迁移性及泛化能力较差的问题,提出一种基于最大熵原理和随机离线策略的柔性演员-评论家(SAC)控制算法。构建演员和评论家网络拟合动作值函数和动作策略函数,并使用自调节温度系数改善智能体的环境探索能力;针对奖励稀疏问题,运用奖励塑造思想设计奖励函数;此外,提出一种新的经验回放机制以提高样本利用率。将所提出的控制算法在不同场景中进行仿真及实车验证,并与深度确定性策略梯度(DDPG)算法进行比较,结果表明,该算法具有更好的模型泛化能力和实车迁移效果。
关键词
自适应巡航控制
柔性
演员
-
评论家
可迁移性
深度强化学习
Keywords
Adaptive cruise control
Soft Actor-Critic(SAC)
Mitigation
Deep Reinforcement Learning(DRL)
分类号
U461 [机械工程—车辆工程]
下载PDF
职称材料
题名
基于最大熵深度强化学习的双足机器人步态控制方法
被引量:
1
5
作者
李源潮
陶重犇
王琛
机构
苏州科技大学电子与信息工程学院
清华大学苏州汽车研究院
出处
《计算机应用》
CSCD
北大核心
2024年第2期445-451,共7页
基金
国家自然科学基金资助项目(62201375)
中国博士后科学基金资助项目(2021M691848)
+1 种基金
江苏省自然科学基金资助项目(BK20220635)
苏州市科技项目(SS2019029)。
文摘
针对双足机器人连续直线行走的步态稳定控制问题,提出一种基于最大熵深度强化学习(DRL)的柔性演员-评论家(SAC)步态控制方法。首先,该方法无需事先建立准确的机器人动力学模型,所有参数均来自关节角而无需额外的传感器;其次,采用余弦相似度方法对经验样本分类,优化经验回放机制;最后,根据知识和经验设计奖励函数,使双足机器人在直线行走训练过程中不断进行姿态调整,确保直线行走的鲁棒性。在Roboschool仿真环境中与其他先进深度强化学习算法,如近端策略优化(PPO)方法和信赖域策略优化(TRPO)方法的实验对比结果表明,所提方法不仅实现了双足机器人快速稳定的直线行走,而且鲁棒性更好。
关键词
双足机器人
步态控制
深度强化学习
最大熵
柔性
演员
-
评论家
算法
Keywords
biped robot
gait control
deep reinforcement learning
maximum entropy
Soft Actor-Critic(SAC)algorithm
分类号
TP242.6 [自动化与计算机技术—检测技术与自动化装置]
下载PDF
职称材料
题名
基于柔性演员-评论家算法的决策规划协同研究
被引量:
1
6
作者
唐斌
刘光耀
江浩斌
田宁
米伟
王春宏
机构
江苏大学
江苏罡阳转向系统有限公司
出处
《交通运输系统工程与信息》
EI
CSCD
北大核心
2024年第2期105-113,187,共10页
基金
国家自然科学基金(52225212)
江苏省六大人才高峰项目(2019-GDZB-084)
泰州市科技支撑计划项目(TG202307)。
文摘
为了解决基于常规深度强化学习(Deep Reinforcement Learning, DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(Soft Actor-Critic,SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(Self Attention Mechanism, SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。
关键词
智能交通
自动驾驶
柔性
演员
-
评论家
算法
决策规划协同
深度强化学习
Keywords
intelligent transportation
autonomous driving
soft actor-critic algorithm
collaborative decision and planning
deep reinforcement learning
分类号
U491 [交通运输工程—交通运输规划与管理]
下载PDF
职称材料
题名
基于多智能体柔性演员-评论家学习的服务功能链部署算法
被引量:
2
7
作者
唐伦
李师锐
杜雨聪
陈前斌
机构
重庆邮电大学通信与信息工程学院
重庆邮电大学移动通信技术重点实验室
出处
《电子与信息学报》
EI
CSCD
北大核心
2023年第8期2893-2901,共9页
基金
国家自然科学基金(62071078)
重庆市教委科学技术研究项目(KJZD-M201800601)
四川省科技计划项目(2021YFQ0053)。
文摘
针对网络功能虚拟化(NFV)架构下业务请求动态变化引起的服务功能链(SFC)部署优化问题,该文提出一种基于多智能体柔性演员-评论家(MASAC)学习的SFC部署优化算法。首先,建立资源负载惩罚、SFC部署成本和时延成本最小化的模型,同时受限于SFC端到端时延和网络资源预留阈值约束。其次,将随机优化问题转化为马尔可夫决策过程(MDP),实现SFC动态部署和资源的均衡调度,还进一步提出基于业务分工的多决策者编排方案。最后,在分布式多智能体系统中采用柔性演员-评论家(SAC)算法以增强探索能力,并引入了中央注意力机制和优势函数,能够动态和有选择性地关注获取更大部署回报的信息。仿真结果表明,所提算法可以实现负载惩罚、时延和部署成本的优化,并随业务请求量的增加能更好地扩展。
关键词
网络功能虚拟化
服务功能链
柔性
演员
-
评论家
学习
多智能体强化学习
Keywords
Network Function Virtualization(NFV)
Service Function Chain(SFC)
Soft Actor-Critic(SAC)learning
Multi-agent reinforcement learning
分类号
TN929.5 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于深度强化学习的自适应股票交易策略
孙志磊
唐俊洋
丰硕
刘炜
兰雪锋
张文珠
赵澄
《浙江工业大学学报》
CAS
北大核心
2024
1
下载PDF
职称材料
2
基于改进强化学习的移动机器人动态避障方法
徐建华
邵康康
王佳惠
刘学聪
《中国惯性技术学报》
EI
CSCD
北大核心
2023
5
下载PDF
职称材料
3
基于改进柔性演员评论家算法的研究
胡仕柯
赵海军
《太原师范学院学报(自然科学版)》
2021
2
下载PDF
职称材料
4
基于柔性演员-评论家算法的自适应巡航控制研究
赵克刚
石翠铎
梁志豪
李梓棋
王玉龙
《汽车技术》
CSCD
北大核心
2023
4
下载PDF
职称材料
5
基于最大熵深度强化学习的双足机器人步态控制方法
李源潮
陶重犇
王琛
《计算机应用》
CSCD
北大核心
2024
1
下载PDF
职称材料
6
基于柔性演员-评论家算法的决策规划协同研究
唐斌
刘光耀
江浩斌
田宁
米伟
王春宏
《交通运输系统工程与信息》
EI
CSCD
北大核心
2024
1
下载PDF
职称材料
7
基于多智能体柔性演员-评论家学习的服务功能链部署算法
唐伦
李师锐
杜雨聪
陈前斌
《电子与信息学报》
EI
CSCD
北大核心
2023
2
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部