期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
群智进化理论及其在智能机器人中的应用 被引量:7
1
作者 刘创 +1 位作者 富宸 甘中学 《中国工程科学》 CSCD 北大核心 2018年第4期101-111,共11页
群体智能(CI)已经在过去的几十年里被广泛研究。最知名的CI算法就是蚁群算法(ACO),它被用来通过CI涌现解决复杂的路径搜索问题。最近,DeepMind发布的AlphaZero程序,通过从零开始的自我对弈强化学习,在围棋、国际象棋、将棋上都取得了超... 群体智能(CI)已经在过去的几十年里被广泛研究。最知名的CI算法就是蚁群算法(ACO),它被用来通过CI涌现解决复杂的路径搜索问题。最近,DeepMind发布的AlphaZero程序,通过从零开始的自我对弈强化学习,在围棋、国际象棋、将棋上都取得了超越人类的成绩。通过在五子棋上试验并实现AlphaZero系列程序,以及对蒙特卡洛树搜索(MCTS)和ACO两种算法的分析和比较,AlphaZero的成功原因被揭示,它不仅是因为深度神经网络和强化学习,而且是因为MCTS算法,该算法实质上是一种CI涌现算法。在上述研究基础上,本文提出了一个CI进化理论,并将其作为走向人工通用智能(AGI)的通用框架。该算法融合了深度学习、强化学习和CI算法的优势,使得单个智能体能够通过CI涌现进行高效且低成本的进化。此CI进化理论在智能机器人中有天然的应用。一个云端平台被开发出来帮助智能机器人进化其智能模型。作为这个概念的验证,一个焊接机器人的焊接参数优化智能模型已经在云端平台上实现。 展开更多
关键词 群体智能 涌现 进化 正反馈 蚁群算法 蒙特卡洛树搜索 分布式人工智能云端平台 智能机器人
下载PDF
无负载均衡器的Linux高可用负载均衡集群系统 被引量:1
2
作者 谢作贵 《计算机工程》 CAS CSCD 北大核心 2007年第3期136-137,共2页
针对由交换机连接的双机(或多机)负载均衡集群系统,将负载均衡功能转移到真实服务器节点上,从而不需要单独的负载均衡器节点,而且服务器节点之间互为备份,在一个节点失效后,另外一个备份节点将接管其工作,从而构建一个不需要负载均衡器... 针对由交换机连接的双机(或多机)负载均衡集群系统,将负载均衡功能转移到真实服务器节点上,从而不需要单独的负载均衡器节点,而且服务器节点之间互为备份,在一个节点失效后,另外一个备份节点将接管其工作,从而构建一个不需要负载均衡器的Linux高可用负载均衡集群系统。 展开更多
关键词 虚拟MAC 负载均衡 高可用 LINUX
下载PDF
竞争与合作视角下的多Agent强化学习研究进展
3
作者 田小禾 李伟 +3 位作者 许铮 刘天星 甘中学 《计算机应用与软件》 北大核心 2024年第4期1-15,共15页
随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习... 随着深度学习和强化学习研究取得长足的进展,多Agent强化学习已成为解决大规模复杂序贯决策问题的通用方法。为了推动该领域的发展,从竞争与合作的视角收集并总结近期相关的研究成果。该文介绍单Agent强化学习;分别介绍多Agent强化学习的基本理论框架——马尔可夫博弈以及扩展式博弈,并重点阐述了其在竞争、合作和混合三种场景下经典算法及其近期研究进展;讨论多Agent强化学习面临的核心挑战——环境的不稳定性,并通过一个例子对其解决思路进行总结与展望。 展开更多
关键词 深度学习 强化学习 多AGENT强化学习 环境的不稳定性
下载PDF
面向高维连续行动空间的蒙特卡罗树搜索算法 被引量:1
4
作者 刘天星 李伟 +3 位作者 许铮 张立华 甘中学 《计算机科学》 CSCD 北大核心 2021年第10期30-36,共7页
蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)在低维离散控制任务中取得了巨大的成功。然而,在现实生活中许多任务需要在连续动作空间进行行动规划。由于连续行动空间涉及的行动集过大,蒙特卡罗树搜索很难在有限的时间内从中筛选出最... 蒙特卡罗树搜索(Monte Carlo Tree Search,MCTS)在低维离散控制任务中取得了巨大的成功。然而,在现实生活中许多任务需要在连续动作空间进行行动规划。由于连续行动空间涉及的行动集过大,蒙特卡罗树搜索很难在有限的时间内从中筛选出最佳的行动。作为蒙特卡罗树搜索的一个变种,KR-UCT(Kernel Regression UCT)算法通过核函数泛化局部信息的方式提高了蒙特卡罗树搜索在低维连续动作空间的模拟效率。但是在与环境交互的过程中,为了找出最佳的行动,KR-UCT在每一步都需要从头进行大量的模拟,这使得KR-UCT算法仅局限于低维连续行动空间,而在高维连续行动空间难以在有限的时间内从行动空间筛选出最佳的行动。在与环境交互的过程中,智能体可以获得环境反馈回来的信息,因此,为了提高KR-UCT算法在高维行动空间的性能,可以使用这些反馈信息剪枝树搜索过程来加快KR-UCT算法在高维连续行动空间的模拟效率。基于此,文中提出了一种基于策略-价值网络的蒙特卡罗树搜索方法(KR-UCT with Policy-Value Network,KRPV)。该方法使用策略-价值网络保存智能体与环境之间的交互信息,随后策略网络利用这些信息帮助KR-UCT算法剪枝KR-UCT搜索树的宽度;而价值网络则通过泛化不同状态之间的价值信息对蒙特卡罗树搜索在深度上进行剪枝,从而提高了KR-UCT算法的模拟效率,进而提高了算法在高维连续行动任务中的性能。在OpenAI gym中的4个连续控制任务上对KRPV进行了评估。实验结果表明,该方法在4个连续控制任务上均优于KR-UCT,特别是在6维的HalfCheetah-v2任务中,使用KRPV算法所获得的奖励是KR-UCT的6倍。 展开更多
关键词 蒙特卡罗树搜索 高维连续行动空间 深度神经网络 强化学习 核回归UCT
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部