传统的序列决策方法旨在对决策过程与决策步骤进行建模,以求解得到最优的决策序列.然而,序列决策建模过程对目标函数的确定性要求高,且序列搜索的算法多以深度优先或广度优先等遍历搜索为主,鲜有考虑搜索过程的随机性.蒙特卡洛树搜索算...传统的序列决策方法旨在对决策过程与决策步骤进行建模,以求解得到最优的决策序列.然而,序列决策建模过程对目标函数的确定性要求高,且序列搜索的算法多以深度优先或广度优先等遍历搜索为主,鲜有考虑搜索过程的随机性.蒙特卡洛树搜索算法(Monte Carlo tree search,MCTS)虽然适合求解随机序列搜索问题,但目前仅应用于博弈型搜索过程,鲜有探讨需要专家参与的知识约束序列决策的搜索策略,另外,传统MCTS算法往往存在搜索范围过大、收敛不及时等问题.为此,提出一种融合群决策经验型知识和部分确定型决策序列片段的混合知识约束的MCTS序列决策方法,并给出了详细的求解流程.最后,将所提方法应用于一类中风后吞咽功能障碍针灸穴位排序方案制订问题,给出了融合混合知识与MCTS的针灸排序方案设定方法,并与其他方法进行对比,验证了所提方法的可行性和有效性,为年轻医师的针灸方案制订技能的标准化培训工作奠定了方法基础.展开更多
针对Robocup仿真足球比赛中本位点区域化跑位的局限性,在三角剖分的阵型设计基础上将蒙特卡洛树搜索算法引入2D仿真中,将球员智能体在球场上的状态定义为博弈树节点,将双方球员的动作选择视为节点间的状态转移,对于球队的防守任务建立...针对Robocup仿真足球比赛中本位点区域化跑位的局限性,在三角剖分的阵型设计基础上将蒙特卡洛树搜索算法引入2D仿真中,将球员智能体在球场上的状态定义为博弈树节点,将双方球员的动作选择视为节点间的状态转移,对于球队的防守任务建立蒙特卡洛树模型。利用极坐标方式对球场进行区域分割,结合Q学习与蒙特卡洛树搜索中的信心上限树算法(Upper Confidence Bound Apply to Tree of Monte Carlo)进行球队训练,将训练结果的动作评估值用于优化比赛代码,使得球队的防守能力得到了较大程度的提升。展开更多
文摘传统的序列决策方法旨在对决策过程与决策步骤进行建模,以求解得到最优的决策序列.然而,序列决策建模过程对目标函数的确定性要求高,且序列搜索的算法多以深度优先或广度优先等遍历搜索为主,鲜有考虑搜索过程的随机性.蒙特卡洛树搜索算法(Monte Carlo tree search,MCTS)虽然适合求解随机序列搜索问题,但目前仅应用于博弈型搜索过程,鲜有探讨需要专家参与的知识约束序列决策的搜索策略,另外,传统MCTS算法往往存在搜索范围过大、收敛不及时等问题.为此,提出一种融合群决策经验型知识和部分确定型决策序列片段的混合知识约束的MCTS序列决策方法,并给出了详细的求解流程.最后,将所提方法应用于一类中风后吞咽功能障碍针灸穴位排序方案制订问题,给出了融合混合知识与MCTS的针灸排序方案设定方法,并与其他方法进行对比,验证了所提方法的可行性和有效性,为年轻医师的针灸方案制订技能的标准化培训工作奠定了方法基础.
文摘针对Robocup仿真足球比赛中本位点区域化跑位的局限性,在三角剖分的阵型设计基础上将蒙特卡洛树搜索算法引入2D仿真中,将球员智能体在球场上的状态定义为博弈树节点,将双方球员的动作选择视为节点间的状态转移,对于球队的防守任务建立蒙特卡洛树模型。利用极坐标方式对球场进行区域分割,结合Q学习与蒙特卡洛树搜索中的信心上限树算法(Upper Confidence Bound Apply to Tree of Monte Carlo)进行球队训练,将训练结果的动作评估值用于优化比赛代码,使得球队的防守能力得到了较大程度的提升。