-
题名基于蚁群信息素辅助的Q学习路径规划算法
被引量:6
- 1
-
-
作者
田晓航
霍鑫
周典乐
赵辉
-
机构
哈尔滨工业大学控制与仿真中心
国防科技大学前沿交叉学科学院
-
出处
《控制与决策》
EI
CSCD
北大核心
2023年第12期3345-3353,共9页
-
基金
黑龙江省自然科学基金项目(LH2021F025)
中央高校基本科研业务费专项资金项目(HIT.NSRIF202242)
+1 种基金
黑龙江省教改项目(SJGY20200185)
哈尔滨工业大学研究生教改核心项目(21HX0401)。
-
文摘
当Q学习应用于路径规划问题时,由于动作选择的随机性,以及Q表更新幅度的有限性,智能体会反复探索次优状态和路径,导致算法收敛速度减缓.针对该问题,引入蚁群算法的信息素机制,提出一种寻优范围优化方法,减少智能体的无效探索次数.此外,为提升算法初期迭代的目的性,结合当前栅格与终点位置关系的特点以及智能体动作选择的特性,设计Q表的初始化方法;为使算法在运行的前中后期有合适的探索概率,结合信息素浓度,设计动态调整探索因子的方法.最后,在不同规格不同特点的多种环境中,通过仿真实验验证所提出算法的有效性和可行性.
-
关键词
q学习
路径规划
q表初始化
探索概率
蚁群算法
信息素
-
Keywords
q-learning
path planning
q-table initialization
exploring probabilities
ant colony algorithm
pheromone
-
分类号
TP273
[自动化与计算机技术—检测技术与自动化装置]
-
-
题名基于因子分解机用于安全探索的Q表初始化方法
- 2
-
-
作者
曾柏森
钟勇
牛宪华
-
机构
中国科学院成都计算机应用研究所
中国科学院大学
成都工业学院网络与通信工程学院
通信抗干扰技术国家级重点实验室(电子科技大学)
西华大学计算机与软件工程学院
-
出处
《计算机应用》
CSCD
北大核心
2022年第1期209-214,共6页
-
基金
中国博士后科技基金资助项目(2019M663475)。
-
文摘
针对强化学习的大多数探索/利用策略在探索过程中忽略智能体随机选择动作带来的风险的问题,提出一种基于因子分解机(FM)用于安全探索的Q表初始化方法。首先,引入Q表中已探索的Q值作为先验知识;然后,利用FM建立先验知识中状态和行动间潜在的交互作用的模型;最后,基于该模型预测Q表中的未知Q值,从而进一步引导智能体探索。在OpenAIGym的网格强化学习环境Cliffwalk中进行的A/B测试里,基于所提方法的Boltzmann和置信区间上界(UCB)探索/利用策略的不良探索幕数分别下降了68.12%和89.98%。实验结果表明,所提方法提高了传统策略的探索安全性,同时加快了收敛。
-
关键词
强化学习
q-LEARNING
因子分解机
q表初始化
安全探索
-
Keywords
reinforcement learning
q-learning
Factorization Machine(FM)
q-table initialization
safe exploration
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-