期刊文献+
共找到13篇文章
< 1 >
每页显示 20 50 100
一种基于启发式轮廓表的逻辑强化学习方法 被引量:8
1
作者 刘全 高阳 +2 位作者 陈道蓄 孙吉贵 姚望舒 《计算机研究与发展》 EI CSCD 北大核心 2008年第11期1824-1830,共7页
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表... 强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.针对强化学习一直被"维数灾"问题所困扰的问题,提出在关系强化学习的基础上,引入启发式轮廓表的方法,采用含轮廓表的一阶谓词表示状态、活动和Q-函数,充分发挥Prolog表的优势,将逻辑谓词规则与强化学习相结合,形成一种新的逻辑强化学习方法——CCLORRL,并对其收敛性进行了证明.该方法使用轮廓形状谓词产生形状状态表,大幅度地减少状态空间;利用启发式规则指导动作的选择,减少了样本中不存在状态选择的盲目性.CCLORRL算法应用于俄罗斯方块中,实验表明,该方法是比较高效的. 展开更多
关键词 维数灾 启发式轮廓表 谓词 逻辑强化学习 CCLORRL算法
下载PDF
一种逻辑强化学习的tableau推理方法 被引量:3
2
作者 刘全 崔志明 +2 位作者 高阳 陈道蓄 姚望舒 《智能系统学报》 2008年第4期355-360,共6页
tableau方法是一种具有较强的通用性和适用性的推理方法,但由于函数符号、等词等的限制,使得自动推理具有不确定性.针对tableau推理中封闭集合构造过程具有盲目性的问题,提出将强化学习用于tableau自动推理的方法.该方法将tableau推理... tableau方法是一种具有较强的通用性和适用性的推理方法,但由于函数符号、等词等的限制,使得自动推理具有不确定性.针对tableau推理中封闭集合构造过程具有盲目性的问题,提出将强化学习用于tableau自动推理的方法.该方法将tableau推理过程中的逻辑公式与强化学习相结合,产生抽象的状态和活动.这样一方面可以通过学习方法控制自动推理的推理顺序,形成合理的封闭分枝,减少推理的盲目性;另一方面复杂的推理可以利用简单的推理结果,提高推理的效率. 展开更多
关键词 逻辑强化学习 tableau推理
下载PDF
基于强化学习的资源最优化逻辑拓扑映射算法 被引量:2
3
作者 王亚男 杨雪 +3 位作者 庄浩涛 朱敏 康乐 赵永利 《光通信技术》 北大核心 2020年第6期46-50,共5页
光传送网(OTN)中光节点波长复用/解复用器以及光开关矩阵可实现任意结构的逻辑拓扑在物理拓扑上的映射,不合理的映射方案将消耗额外端口资源。提出一种基于强化学习(RL)的逻辑拓扑最优化映射算法,将预处理后的拓扑状态和逻辑通道数据用... 光传送网(OTN)中光节点波长复用/解复用器以及光开关矩阵可实现任意结构的逻辑拓扑在物理拓扑上的映射,不合理的映射方案将消耗额外端口资源。提出一种基于强化学习(RL)的逻辑拓扑最优化映射算法,将预处理后的拓扑状态和逻辑通道数据用于训练RL模型,以对逻辑通道进行全局波长资源分配,最终达到资源最优化目的。仿真结果表明:所提算法有效减小逻辑拓扑映射过程中的资源消耗,从而最小化网络部署成本。 展开更多
关键词 光传送网 逻辑拓扑映射 强化学习 网络资源分配
下载PDF
基于Q算法的认证协议漏洞挖掘技术研究
4
作者 吕乐乐 董伟 +3 位作者 赵云飞 冯志 李致成 张雅勤 《电子技术应用》 2022年第10期63-68,共6页
认证授权协议在不泄露用户口令的情况下允许第三方获取用户资源,解决了云平台下第三方授权问题,提高了用户的交互体验。但是协议在交互处理中的不确定性和复杂性导致其在实际应用时可能会存在逻辑漏洞。针对该问题提出一种模糊仿真方法... 认证授权协议在不泄露用户口令的情况下允许第三方获取用户资源,解决了云平台下第三方授权问题,提高了用户的交互体验。但是协议在交互处理中的不确定性和复杂性导致其在实际应用时可能会存在逻辑漏洞。针对该问题提出一种模糊仿真方法,通过对协议交互过程进行模糊处理,利用协议实体动作的不确定性,发现协议的逻辑漏洞。同时,结合SA-Q强化学习算法训练智能体学习最优模糊策略,智能化挖掘漏洞。经过测试发现,相比于基本的Q学习算法,该方法的收敛速度提升了9.27%,使得模型在训练时更容易收敛,有效提高了漏洞的挖掘效率。 展开更多
关键词 认证授权协议 逻辑漏洞 模糊仿真 Q强化学习算法
下载PDF
基于强化学习的机器人模糊控制系统设计 被引量:4
5
作者 段勇 刘兴刚 徐心和 《系统仿真学报》 EI CAS CSCD 北大核心 2006年第6期1597-1600,共4页
研究了基于强化学习(RL)的模糊逻辑控制器(FLC)设计方法,并将该控制器作为反应式自主移动机器人的控制系统。在缺乏专家知识的情况下,将模糊推理系统(FIS)和强化学习理论相结合构成模糊强化系统,通过强化学习算法获取FLC得模糊规则库,... 研究了基于强化学习(RL)的模糊逻辑控制器(FLC)设计方法,并将该控制器作为反应式自主移动机器人的控制系统。在缺乏专家知识的情况下,将模糊推理系统(FIS)和强化学习理论相结合构成模糊强化系统,通过强化学习算法获取FLC得模糊规则库,从而有效地解决了复杂未知环境的机器人导航问题。实验结果表明,由强化学习设计的模糊控制器的有效性,同时具有较强的适应能力,可以应用于不同的复杂环境。 展开更多
关键词 模糊逻辑控制器 强化学习 Q(λ)学习 机器人导航
下载PDF
线性时序逻辑引导的安全强化学习 被引量:2
6
作者 李保罗 蔡明钰 阚震 《控制与决策》 EI CSCD 北大核心 2023年第7期1835-1844,共10页
针对动态不确定环境下机器人执行复杂任务的需求,提出一种线性时序逻辑(linear temporal logic,LTL)引导的无模型安全强化学习算法,能在最大化任务完成概率的同时保证学习过程的安全性.首先,综合考虑环境中的不确定因素,构建马尔可夫决... 针对动态不确定环境下机器人执行复杂任务的需求,提出一种线性时序逻辑(linear temporal logic,LTL)引导的无模型安全强化学习算法,能在最大化任务完成概率的同时保证学习过程的安全性.首先,综合考虑环境中的不确定因素,构建马尔可夫决策过程(Markov decision process,MDP),再用LTL刻画智能体的复杂任务,将其转化为有多接受集的基于转移的有限确定性广义布奇自动机(transition-based limit deterministic generalized Büchi automaton,tLDGBA),并通过接受边界函数构建可记录当前待访问接受集的约束型tLDGBA(constrained tLDGBA,ctLDGBA);其次,构建乘积MDP用于强化学习搜索最优策略;最后,基于LTL对安全性的描述和MDP的观测函数构建安全博弈,并根据安全博弈设计安全盾机制保证系统在学习过程中的安全性.严格的分析证明了所提出的算法能获得最大化LTL任务完成概率的最优策略.仿真结果验证了LTL引导的安全强化学习算法的有效性. 展开更多
关键词 线性时序逻辑 自动机 马尔可夫决策过程 强化学习 安全博弈 运动规划
原文传递
一种采用增强式学习的模糊控制系统研究 被引量:3
7
作者 王直杰 方建安 邵世煌 《控制与决策》 EI CSCD 北大核心 1997年第2期188-191,共4页
提出一种新的自学习模糊控制系统,该系统有机地集成了BB(Bucket—Brigade)算法和遗传算法,组成一种新的增强式学习(Reinforcement Learning)算法,能够在缺少输入—输出样本集的情况下自动学习生成模糊控制规则,调节隶属度函数。
关键词 模糊控制 BB算法 增强式学习
下载PDF
具有模糊分割的动态神经网络控制 被引量:4
8
作者 邓志东 李凌 张钹 《计算机学报》 EI CSCD 北大核心 1999年第9期936-941,共6页
提出了一种具有模糊分割的动态神经网络(DNNFP).给出了网络的拓扑结构,得到了该网络在监督学习与再激励学习方式下的学习算法,并将其成功地应用于pH中和过程这一典型的连续时间非线性动态系统的控制.该文的研究表明,这种... 提出了一种具有模糊分割的动态神经网络(DNNFP).给出了网络的拓扑结构,得到了该网络在监督学习与再激励学习方式下的学习算法,并将其成功地应用于pH中和过程这一典型的连续时间非线性动态系统的控制.该文的研究表明,这种动态模糊神经网络综合了模糊逻辑、CMAC网络以及再激励学习的有关结果,不仅具有明确的物理意义,而且无需以任何显式方式建立被控对象的数学模型.由此获得的动态学习控制系统结构简单、鲁棒性强并具有广泛的适用性.在相同控制限幅下。 展开更多
关键词 动态神经网络 CMAC 模糊分割 学习算法
下载PDF
一种在线自学习的移动机器人模糊导航方法 被引量:2
9
作者 赫东锋 孙树栋 《西安工业大学学报》 CAS 2007年第4期325-329,共5页
针对现有移动机器人模糊导航对未知不确定环境缺乏自适应性的缺点,提出了一种具备在线自学习能力的模糊导航方法.通过设计模糊规则并确定动作先验值,完成初始模糊导航系统的构建.利用Q强化学习算法对模糊规则中各行为的值函数进行在线... 针对现有移动机器人模糊导航对未知不确定环境缺乏自适应性的缺点,提出了一种具备在线自学习能力的模糊导航方法.通过设计模糊规则并确定动作先验值,完成初始模糊导航系统的构建.利用Q强化学习算法对模糊规则中各行为的值函数进行在线增量学习,实现模糊决策的逐步求精.仿真实验表明,移动机器人导航系统能够在运行过程中不断调整导航策略,实现对未知不确定环境的自适应.同时由于导航先验知识的引入,有效地克服了强化学习初始阶段进行盲目搜索导致的学习速率低、收敛速度慢的缺点,实现了移动机器人可靠导航. 展开更多
关键词 机器人导航 模糊逻辑 在线自学习 Q强化学习
下载PDF
多月球车定位/决策网络 被引量:1
10
作者 孟伟 洪炳镕 韩学东 《机器人》 EI CSCD 北大核心 2004年第2期102-106,共5页
提出了多月球车协作的分布式定位 /决策网络 ,将模糊逻辑与强化学习相结合 ,完成月球车的行为决策实验 .仿真结果证明了该方法的有效性 .
关键词 多月球车 定位/决策网络 模糊逻辑 强化学习
下载PDF
A New Reinforcement Learning Method for Fuzzy Logic Controllers
11
作者 王直杰 方建安 邵世煌 《Journal of China Textile University(English Edition)》 EI CAS 1998年第2期42-45,共4页
A new reinforcement method for learning fuzzy logiccontrollers is proposed.The reinforcement learningscheme is composed of two fuzzy logic rule bases:oneacts as an adaptive critic,the other server as a control-ler.The... A new reinforcement method for learning fuzzy logiccontrollers is proposed.The reinforcement learningscheme is composed of two fuzzy logic rule bases:oneacts as an adaptive critic,the other server as a control-ler.The proposed method is tested on the cart-pole sys-tem.Simulation results show that the method has betterlearning performance than Anderson’s neural network-based method. 展开更多
关键词 reinforcement learning FUZZY logic control.
全文增补中
RoboCup 2D仿真球员射门技能中智能算法的应用综述
12
作者 黄颖 陈玮 《电子世界》 2012年第5期80-83,共4页
在Robocup仿真比赛中,Agent的动作技能是仿真足球比赛的基础。本文详细分析了robocup2D机器人足球仿真中射门技能存在的问题,论述了智能算法在机器人足球2D仿真球员射门技能中的应用,并提出了进一步的研究方案。
关键词 模糊控制 BP神经网络 强化学习 Robocup2D仿真 射门
下载PDF
基于特殊二进制编码的自学习模糊遗传算法
13
作者 刘虎 朱力立 +1 位作者 张焕春 经亚枝 《吉林大学学报(信息科学版)》 CAS 2004年第6期587-591,共5页
为了提高自适应遗传算法(AGA:AdaptiveGeneticAlgorithm)的鲁棒性,并使之更有效地求解属于NP难类型的组合优化问题,提出了一种自学习模糊自适应遗传算法。该混合算法利用一个特殊二进编码标准GA在线学习AGA运行特性;通过强化学习方式自... 为了提高自适应遗传算法(AGA:AdaptiveGeneticAlgorithm)的鲁棒性,并使之更有效地求解属于NP难类型的组合优化问题,提出了一种自学习模糊自适应遗传算法。该混合算法利用一个特殊二进编码标准GA在线学习AGA运行特性;通过强化学习方式自动设计和调整模糊知识系统,基于GA的自学习模糊技术可以获取AGA所需的优化模糊系统。仿真试验演示了采用所提出自动化方式设计的动态参数AGA系统及其自学习结果。试验结果表明,该算法可以用于解决类似于旅行商问题的组合优化问题。 展开更多
关键词 遗传算法 模糊控制 自适应参数控制 强化学习
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部