给定预算下基于相对熵置信区间的蒙特卡洛树搜索最优动作识别算法

Best Action Identification Algorithm in Monte Carlo Tree Search Based on Relative Entropy Confidence Interval with Given Budget

下载PDF

导出

摘要蒙特卡洛树搜索(Monte Carlo tree search, MCTS)将强化学习的反馈优化与生长树的动态规划相结合,在输出当前状态的最佳动作的同时极大地减少了计算量,因此成为开放环境下众多领域智能系统的关键通用方法.但由于计算资源匮乏或者计算成本昂贵等原因,完全充分地对树结构进行搜索是难以实现的,因此在有限的预算下高效合理地分配计算资源从而获得当前状态下的最优动作是目前研究的一个重要问题.现有大多数算法仅以识别准确率作为性能指标,通过实验对比验证算法性能,缺少对算法的识别误差和影响因素的分析,从而降低了算法的可信性和可解释性.针对该问题,选择基础核心的2名玩家、完全信息、零和博弈场景,提出了固定预算设定下MCTS抽象模型的最优行动识别算法DLU——基于相对熵置信区间的纯探索(relative entropy confidence interval based pure exploration).首先提出了基于相对熵置信区间的估值方法对叶子节点胜率进行估计,其可以从底层提高树节点估值准确性;其次给出了第1层节点值估计、最优节点选择策略以形成完整算法流程;然后推导了DLU算法的识别误差上界,并分析了算法性能的影响因素;最后在人造树模型和井字棋2种场景下验证算法性能.实验结果表明,在人造树模型上基于相对熵的算法类具有更高的准确度,且模型越复杂识别难度越高时,该算法类的性能优势越显著.在井字棋场景下,DLU算法能有效地识别最优动作. ion model with fixed budget setting.Firstly,a relative entropy-based confidence interval estimation method is constructed to estimate the win rate of leaf,which can essentially improve the valuation accuracy of tree nodes.Secondly,value estimation and node selection strategy for depth-one nodes are proposed to form the complete algorithm flow.Then the upper bound for output error of DLU algorithm is derived and the influencing factors on the algorithm performance are analysed.Finally,the algorithm performance is verified in two scenarios:artificial tree model and tic-tac-toe.The experimental results show that the algorithm class based on relative entropy has higher accuracy on the artificial tree model,and the performance advantage is more significant when the model is more complex and the recognition difficulty is higher.In the tic-tac-toe scenario,the DLU algorithm can effectively identify the best move.

作者刘郭庆钱宇华张亚宇王婕婷 Liu Guoqing;Qian Yuhua;Zhang Yayu;Wang Jieting(Institute of Big Data Science and Industry,Shanxi University,Taiyuan 030006;Key Laboratory of Computational Intelligence and Chinese Information Processing(Shanxi University),Ministry of Education,Taiyuan 030006;School of Computer and Information Technology,Shanxi University,Taiyuan 030006)

机构地区山西大学大数据科学与产业研究院计算智能与中文信息处理教育部重点实验室(山西大学) 山西大学计算机与信息技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2023年第8期1780-1794,共15页 Journal of Computer Research and Development

基金国家自然科学基金重点项目(62136005) 国家重点研发计划项目(2021ZD0112400)。

关键词蒙特卡洛树搜索最优动作识别多臂赌博机误差最小化强化学习 Monte Carlo tree search(MCTS) best action identification multi-armed bandit(MAB) error minimization reinforcement learning

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1成红红,钱宇华,胡治国,梁吉业.基于邻域视角的关联关系挖掘方法[J].中国科学：信息科学,2020,50(6):824-844. 被引量：7
2王婕婷,钱宇华,李飞江,刘郭庆.消除随机一致性的支持向量机分类方法[J].计算机研究与发展,2020,57(8):1581-1593. 被引量：12

二级参考文献5

1张春霞,张讲社.选择性集成学习算法综述[J].计算机学报,2011,34(8):1399-1410. 被引量：139
2Zhuyuan Fang Xiaowei Fan Gong Chen.A study on specialist or special disease clinics based on big data[J].Frontiers of Medicine,2014,8(3):376-381. 被引量：10
3朱军,胡文波.贝叶斯机器学习前沿进展综述[J].计算机研究与发展,2015,52(1):16-26. 被引量：70
4梁吉业,钱宇华,李德玉,胡清华.大数据挖掘的粒计算理论与方法[J].中国科学：信息科学,2015,45(11):1355-1369. 被引量：93
5Jianqing Fan,Fang Han,Han Liu.Challenges of Big Data analysis[J].National Science Review,2014,1(2):293-314. 被引量：61

共引文献16

1郭倩,钱宇华,梁新彦.基于关联约束的对抗跨模态检索方法[J].模式识别与人工智能,2021,34(1):68-76. 被引量：1
2王克琪,钱宇华,梁吉业,刘畅,黄琴,陈路,贾洁茹.局部-全局关系耦合的低照度图像增强[J].中国科学：信息科学,2022,52(3):443-460. 被引量：5
3梁新彦,钱宇华,郭倩,黄琴.多粒度融合驱动的超多视图分类方法[J].计算机研究与发展,2022,59(8):1653-1667.
4陈刚.基于数据挖掘地域性强关联规则数据提取[J].吉林大学学报（信息科学版）,2022,40(4):652-656.
5钱宇华,王川杭,王婕婷.消除随机一致性的互信息及决策树算法[J].山西大学学报（自然科学版）,2022,45(5):1206-1215. 被引量：2
6叶建德.基于分裂式K均值聚类的无线网络信息定向挖掘方法研究[J].景德镇学院学报,2022,37(6):23-27.
7田会利,李佳贤,李佳帆.物联技术视角下的医院妇产科护理模型研究[J].微型电脑应用,2023,39(4):44-47.
8胡深,钱宇华,王婕婷,李飞江,吕维.基于对比学习的超多类深度图像聚类模型[J].计算机科学,2023,50(9):192-201. 被引量：1
9罗红郊,马晓琴,孙妍,张华铭.基于RFE特征选择的PSO-SVM用电量预测算法[J].电子设计工程,2023,31(20):172-176. 被引量：1
10周春雷,董新微,季良,张璧君,许中平.基于改进DTW算法的高维时空数据关联挖掘方法[J].电子设计工程,2023,31(24):141-144.

1史素霞.工程结算阶段造价管控典型问题[J].中国科技期刊数据库工业A,2021(10):343-345.
2纪东,魏阳杰,李宇溪,王义.ROS2多线程执行器上DAG任务的优先级分配方法[J].计算机研究与发展,2023,60(5):1086-1098. 被引量：2
3盛春红,范珈铭.改进APF-Informed-RRT*融合算法的无人机航迹规划[J].电光与控制,2023,30(6):1-7. 被引量：1
4Jing Song,Shu Chen,Zhongzhi Wang.On Strong Deviation Theorems Concerning Arrays of Non-negative Integer-valued Random Variables[J].Journal of Mathematical Study,2022,55(2):206-215.
5郭梦丽,梁津敏,李波,费少明,王志玺.Bounds on positive operator-valued measure based coherence of superposition[J].Chinese Physics B,2023,32(5):228-234.
6乔冠华,吴麒,王翔,潘俊男,张易新,丁建.基于深度强化学习的无人机自组网路由算法[J].重庆邮电大学学报（自然科学版）,2023,35(2):335-342. 被引量：2
7Kaibo Lu,Xin Wang,Xun Chen,Xinyu Pang,Fengshou Gu.Experimental Study on Entropy Features in Machining Vibrations of A Thin-Walled Tubular Workpiece[J].Journal of Dynamics, Monitoring and Diagnostics,2023,2(1):61-68.
8李凝书,关东海,袁伟伟.基于梯度结构的图神经网络对抗攻击[J].计算机系统应用,2023,32(7):276-283.
9赵翔彦,马洋,张学礼,校艳,吴健强.动车组齿轮箱传感器优化布置[J].自动化与仪器仪表,2023(6):235-239.
10曾凡浪,常瑞,许浩,潘少平,赵永望.基于精化的TrustZone多安全分区建模与形式化验证[J].软件学报,2023,34(8):3507-3526.

计算机研究与发展

2023年第8期

浏览历史

内容加载中请稍等...

给定预算下基于相对熵置信区间的蒙特卡洛树搜索最优动作识别算法

参考文献2

二级参考文献5

共引文献16

相关作者

相关机构

相关主题

浏览历史