期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
一种带自适应学习率的综合随机梯度下降Q-学习方法 被引量:14
1
作者 金海东 刘全 《计算机学报》 EI CSCD 北大核心 2019年第10期2203-2215,共13页
在线强化学习中,值函数的逼近通常采用随机梯度下降(Stochastic Gradient Descent,SGD)方法.在每个时间步,SGD方法使用强化学习算法获取随机样本,计算损失函数的局部梯度,单次模型参数更新的计算量小,适合在线学习.但是,由于目标函数不... 在线强化学习中,值函数的逼近通常采用随机梯度下降(Stochastic Gradient Descent,SGD)方法.在每个时间步,SGD方法使用强化学习算法获取随机样本,计算损失函数的局部梯度,单次模型参数更新的计算量小,适合在线学习.但是,由于目标函数不同维度存在梯度差异,SGD方法会产生优化震荡,导致迭代次数增多,收敛速度变慢甚至不能收敛.本文提出一种带自适应学习率的综合随机梯度下降方法(Adaptive Learning Rate on Integrated Stochastic Gradient Descent,ALRI-SGD),对SGD做了两方面改进:(1)在基于参数预测的基础上,利用历史随机梯度信息综合计算当前时间步的更新梯度;(2)根据不同维度的历史梯度信息,动态计算每个维度的学习率.在一定的数学约束条件下,证明了ALRI-SGD方法的收敛性.把ALRI-SGD方法与基于线性函数逼近的离策略Q-学习算法结合,用于求解强化学习中经典的Mountain Car问题和平衡杆问题,并与基于SGD的Q-学习算法进行实验比较.实验结果表明,ALRI-SGD方法能动态匹配模型参数在不同维度上的梯度差异,并使学习率自动更新以适应不同维度的数据特征.ALRI-SGD方法在收敛效率和收敛稳定性两个方面都有提升. 展开更多
关键词 强化学习 综合随机梯度下降 自适应学习率 参数预测 Q-学习
下载PDF
稀土对碳锰钢耐蚀性能的影响 被引量:9
2
作者 郭锋 林勤 +3 位作者 张志平 高平祥 王跃华 《稀土》 EI CAS CSCD 北大核心 2003年第5期29-32,共4页
在碳锰钢中添加单一稀土元素镧和铈,通过测试其腐蚀速度和点蚀特征参数值,考察了材料耐蚀性能的变化。结果表明,稀土对碳锰钢耐蚀性能的提高有作用,添加稀土所引起的组织变化是导致耐蚀性变化的主要原因。
关键词 碳锰钢 稀土 组织 耐蚀性
下载PDF
TCP协议的安全性和活性验证 被引量:3
3
作者 道喜 张广泉 《苏州大学学报(自然科学版)》 CAS 2008年第1期54-59,64,共7页
网络协议簇中,传输控制协议TCP是最重要的协议之一,提供面向连接的可靠传输服务.采用Promela描述TCP建立连接和可靠数据传输,并用模型检测工具Spin,验证TCP三次握手协议的安全性与可靠数据传输协议活性的属性.
关键词 TCP PROMELA SPIN 模型检测
下载PDF
NSPK协议的Spin模型检测 被引量:3
4
作者 道喜 张广泉 《微电子学与计算机》 CSCD 北大核心 2008年第10期58-60,64,共4页
NSPK协议是一个经典的认证密码协议.通过建立该协议的Promela模型,采用线性时序逻辑描述模型性质,并用模型检测工具Spin进行验证,进而生成入侵者的攻击序列.
关键词 模型检测 NSPK协议 SPIN
下载PDF
一种解决连续空间问题的真实在线自然梯度AC算法 被引量:5
5
作者 朱斐 朱海军 +2 位作者 刘全 伏玉琛 《软件学报》 EI CSCD 北大核心 2018年第2期267-282,共16页
策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架... 策略梯度作为一种能够有效解决连续空间决策问题的方法得到了广泛研究,但由于在策略估计过程中存在较大方差,因此,基于策略梯度的方法往往受到样本利用率低、收敛速度慢等限制.针对该问题,在行动者-评论家(actor-critic,简称AC)算法框架下,提出了真实在线增量式自然梯度AC(true online incremental natural actor-critic,简称TOINAC)算法.TOINAC算法采用优于传统梯度的自然梯度,在真实在线时间差分(true online time difference,简称TOTD)算法的基础上,提出了一种新型的前向观点,改进了自然梯度行动者-评论家算法.在评论家部分,利用TOTD算法高效性的特点来估计值函数;在行动者部分,引入一种新的前向观点来估计自然梯度,再利用资格迹将自然梯度估计变为在线估计,提高了自然梯度估计的准确性和算法的效率.将TOINAC算法与核方法以及正态策略分布相结合,解决了连续空间问题.最后,在平衡杆、Mountain Car以及Acrobot等连续问题上进行了仿真实验,验证了算法的有效性. 展开更多
关键词 策略梯度 自然梯度 行动者-评论家 真实在线TD 核方法
下载PDF
高镧稀土添加剂在16Mn钢中的应用 被引量:4
6
作者 林勤 +3 位作者 郭锋 高平祥 王跃华 万恒瑜 《北京科技大学学报》 EI CAS CSCD 北大核心 2004年第6期600-603,共4页
针对高镧稀土添加剂对16Mn钢的夹杂物、力学性能的影响进行分析研究,并与富铈稀土添加剂进行对比.实验表明,高镧稀土添加剂能有效变质16Mn钢中的夹杂物,减少夹杂物的数量,改善钢的力学性能.当La/S(质量比)为2.5时,综合力学性能达到最佳... 针对高镧稀土添加剂对16Mn钢的夹杂物、力学性能的影响进行分析研究,并与富铈稀土添加剂进行对比.实验表明,高镧稀土添加剂能有效变质16Mn钢中的夹杂物,减少夹杂物的数量,改善钢的力学性能.当La/S(质量比)为2.5时,综合力学性能达到最佳值.高镧稀土添加剂能有效替代富铈稀土添加剂进行稀土钢的开发. 展开更多
关键词 16MN钢 夹杂物 力学性能 高镧混合稀土 添加剂
下载PDF
基于凸多面体抽象域的自适应强化学习技术研究 被引量:5
7
作者 刘全 +1 位作者 朱斐 金海东 《计算机学报》 EI CSCD 北大核心 2018年第1期112-131,共20页
表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,... 表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π*计算.文中提出一种基于凸多面体抽象域的自适应状态空间离散化方法,实现自适应的基于凸多面体抽象域的Q(λ)强化学习算法(Adaptive Polyhedra Domain based Q(λ),APDQ(λ)).凸多面体是一种抽象状态的表达方法,广泛应用于各种随机系统性能评估和程序数值性属性的验证.这种方法通过抽象函数,建立具体状态空间至多面体域的抽象状态空间的映射,把连续状态空间最优策略的计算问题转化为有限大小的和易于处理的抽象状态空间最优策略的计算问题.根据与抽象状态相关的样本集信息,设计了包括BoxRefinement、LFRefinement和MVLFRefinement多种自适应精化机制.依据这些精化机制,对抽象状态空间持续进行适应性精化,从而优化具体状态空间的离散化机制,产生符合在线抽样样本空间所蕴涵的统计奖赏模型.基于多面体专业计算库PPL(Parma Polyhedra Library)和高精度数值计算库GMP(GNU Multiple Precision)实现了算法APDQ(λ),并实施了实例研究.选择典型的连续状态空间强化学习问题山地车(Mountain Car,MC)和杂技机器人(Acrobatic robot,Acrobot)作为实验对象,详细评估了各种强化学习参数和自适应精化相关的阈值参数对APDQ(λ)性能的影响,探究了抽象状� 展开更多
关键词 强化学习 凸多面体抽象域 连续状态空间 Q(λ) 自适应精化
下载PDF
嵌入式实时软件建模方法研究 被引量:4
8
作者 罗浩 张广泉 《苏州大学学报(自然科学版)》 CAS 2007年第2期49-54,共6页
随着硬件设备计算能力的迅速提高以及社会需求的不断变化和增长,嵌入式实时软件变得越来越复杂.为了提高系统的安全性和可靠性,将基于UML的建模方法与形式化建模方法相结合,可以为嵌入式实时软件建模和验证提供一种良好的解决方案.采用... 随着硬件设备计算能力的迅速提高以及社会需求的不断变化和增长,嵌入式实时软件变得越来越复杂.为了提高系统的安全性和可靠性,将基于UML的建模方法与形式化建模方法相结合,可以为嵌入式实时软件建模和验证提供一种良好的解决方案.采用UML扩展机制,在UML2.0顺序图中加入嵌入式实时软件建模所需的时间特性,并提出一种由UML2.0顺序图构造出时间自动机的方法,为下一步验证奠定理论基础. 展开更多
关键词 嵌入式实时软件 建模 UML2.0顺序图 时间自动机
下载PDF
一种不稳定环境下的策略搜索及迁移方法 被引量:3
9
作者 朱斐 刘全 +3 位作者 傅启明 王辉 伏玉琛 《电子学报》 EI CAS CSCD 北大核心 2017年第2期257-266,共10页
强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策... 强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法——FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能. 展开更多
关键词 强化学习 策略搜索 策略迁移 不稳定环境 公式集
下载PDF
“计算机程序设计语言”教学刍议 被引量:3
10
作者 姚望舒 《计算机教育》 2009年第10期18-20,共3页
"计算机程序设计语言"课程是计算机科学与技术学科核心的课程之一,极大地影响着学生对计算机领域的理解和兴趣。本文针对教学过程中存在的问题,提出了层次化教学目标思想。以面向对象语言C++为例,介绍基于层次化教学目标体系... "计算机程序设计语言"课程是计算机科学与技术学科核心的课程之一,极大地影响着学生对计算机领域的理解和兴趣。本文针对教学过程中存在的问题,提出了层次化教学目标思想。以面向对象语言C++为例,介绍基于层次化教学目标体系的具体思想和内容,并提出与之相适用的课程及实验设计,达到优化教学方法,提高教学质量的目的。 展开更多
关键词 计算机程序设计语言 层次化教学 C++
下载PDF
循环迭代程序的一种可信计算算法 被引量:2
11
作者 赵世忠 刘静 《软件学报》 EI CSCD 北大核心 2020年第12期3685-3699,共15页
循环迭代程序作为软件的基本组成部分,其正确运行具有重要意义.然而,有时(比如其相关错数大于0时)计算时的舍入误差(或表示误差)会导致循环迭代的计算结果不稳定.基于“中间计算精度自动动态调整”的计算技术,给出了循环迭代程序的一种... 循环迭代程序作为软件的基本组成部分,其正确运行具有重要意义.然而,有时(比如其相关错数大于0时)计算时的舍入误差(或表示误差)会导致循环迭代的计算结果不稳定.基于“中间计算精度自动动态调整”的计算技术,给出了循环迭代程序的一种可信计算算法.利用该算法,可获得循环迭代程序任意次迭代的任意位的正确有效数字.目前,通过C++语言该算法已被编程实现于ISReal中. 展开更多
关键词 循环迭代 误差可控计算 可信计算 可靠计算 错数
下载PDF
基于KeY的程序分析和验证 被引量:2
12
作者 夏新凯 《软件》 2016年第3期74-78,共5页
可信性是各安全攸关领域软件的基础要求,例如航空航天飞行器控制软件、核电站控制软件和交通控制管理软件等,基于形式化方法的程序验证和分析是确保软件正确,具有可信性的重要手段。相比软件测试,基于定理证明的程序验证具有语法和语义... 可信性是各安全攸关领域软件的基础要求,例如航空航天飞行器控制软件、核电站控制软件和交通控制管理软件等,基于形式化方法的程序验证和分析是确保软件正确,具有可信性的重要手段。相比软件测试,基于定理证明的程序验证具有语法和语义的严格性,和属性相关的完备性。本文对程序形式化Hoare语义规约和相关的程序逻辑推理规则系统进行了详细的讨论。基于形式化验证平台Ke Y,采用完全自动化和交互式两种方法,对具有一定规模的,含有循环结构,并且具有实际意义的程序进行验证。研究证明过程的具体证明策略和方法,尤其是关于循环不变式的规约方法;对Ke Y的证明效率,先进性和局限性进行评估。 展开更多
关键词 程序验证 KeY系统 安全攸关 循环不变式
下载PDF
面向对象系统的时序逻辑描述 被引量:1
13
作者 李平福 张广泉 《苏州大学学报(工科版)》 CAS 2008年第4期12-19,共8页
针对面向对象系统,定义了一种基于时序逻辑的形式化规约语言。它不仅支持对面向对象思想中重要概念,如类、对象、继承等的描述,而且支持对面向对象系统的时序属性的描述,如类的状态之间的转换,类中某些属性必须一直满足的约束条件等。... 针对面向对象系统,定义了一种基于时序逻辑的形式化规约语言。它不仅支持对面向对象思想中重要概念,如类、对象、继承等的描述,而且支持对面向对象系统的时序属性的描述,如类的状态之间的转换,类中某些属性必须一直满足的约束条件等。能够实现对系统属性的推理也是用这种语言描述的系统的动机之一。通过对一个局域网用户访问控制实例的描述来实现对这种形式化规约语言的直观阐述与理解。 展开更多
关键词 时序逻辑 形式化方法 面向对象 形式化规约语言
下载PDF
基于函数近似的知识迁移 被引量:2
14
作者 谢岩松 金海东 《软件》 2016年第2期134-138,共5页
传统强化学习中,函数近似方法用于同一任务中不同状态之间的知识泛化。提出基于函数近似的知识迁移方法 KTBFA,实现不同任务之间的知识泛化与迁移。KTBFA方法在对状态-动作空间进行特征编码的基础上,使用线性函数逼近器近似表示Agent在... 传统强化学习中,函数近似方法用于同一任务中不同状态之间的知识泛化。提出基于函数近似的知识迁移方法 KTBFA,实现不同任务之间的知识泛化与迁移。KTBFA方法在对状态-动作空间进行特征编码的基础上,使用线性函数逼近器近似表示Agent在源任务中学习到的V*值。近似函数作为知识迁移的表达形式,实现知识从源任务到目标任务的迁移。格子世界平台的实验结果表明,在相似任务中,基于KTBFA方法的Transfer-Q-learning算法的学习效率有非常大的提高。 展开更多
关键词 知识迁移 强化学习 相似任务 V值
下载PDF
NS密码协议的模型检测分析 被引量:1
15
作者 道喜 张广泉 《苏州大学学报(工科版)》 CAS 2008年第3期11-15,共5页
密码协议安全性的分析是网络安全研究领域的一个主要内容,研究人员提出多种形式化方法来分析这个问题。模型检测工具Spin是一个广泛验证并发系统性质的工具,可用来分析密码协议。对Needham-Schroeder(NS)协议认证部分进行了详细的分析,... 密码协议安全性的分析是网络安全研究领域的一个主要内容,研究人员提出多种形式化方法来分析这个问题。模型检测工具Spin是一个广泛验证并发系统性质的工具,可用来分析密码协议。对Needham-Schroeder(NS)协议认证部分进行了详细的分析,结果表明,Spin可成功检测出NS协议的缺陷,并生成攻击的序列。 展开更多
关键词 模型检测 密码协议 形式化方法
下载PDF
基于超协调逻辑处理含有非协调信息的系统规约
16
作者 张宏斌 《计算机应用与软件》 CSCD 2011年第2期139-141,245,共4页
随着计算机系统规模和复杂度的增长,在软件工程的各个阶段,开发者不得不面对包含大量非协调信息的各种类型的系统规约。由于平凡推理的问题,基于经典逻辑的方法不能用于分析含有非协调信息的系统规约。在简单介绍超协调逻辑的基础上,引... 随着计算机系统规模和复杂度的增长,在软件工程的各个阶段,开发者不得不面对包含大量非协调信息的各种类型的系统规约。由于平凡推理的问题,基于经典逻辑的方法不能用于分析含有非协调信息的系统规约。在简单介绍超协调逻辑的基础上,引进一种超协调时序逻辑,它用于描述计算机系统的时序性质,并且能用于处理含有非协调信息的系统规约。 展开更多
关键词 非协调性 超协调逻辑 时序逻辑 软件工程
下载PDF
基于递归的方法在形式文法教学中的作用
17
作者 《福建电脑》 2014年第12期160-162,共3页
形式化文法是编译理论及程序语言理论重要的研究内容之一,同时也是编译原理课程本科教学中的基础内容。掌握系统化形式化文法分析方法是学生学习编译原理基础理论,自动及非自动构造各种编译器的重要基础。通过递归,各种类型复杂度的程... 形式化文法是编译理论及程序语言理论重要的研究内容之一,同时也是编译原理课程本科教学中的基础内容。掌握系统化形式化文法分析方法是学生学习编译原理基础理论,自动及非自动构造各种编译器的重要基础。通过递归,各种类型复杂度的程序语言都可以用文法简洁地进行描述。递归既是一种静态的结构,同时也是一种动态的计算方法。提出基于递归的形式化文法分析方法,重点包括基于递归的语言定义及基于递归的文法语言计算。 展开更多
关键词 编译原理 形式文法 递归 语言
下载PDF
具有程序的静态结构和动态行为语义的时序逻辑
18
作者 刘全 +2 位作者 金海东 朱斐 王辉 《计算机研究与发展》 EI CSCD 北大核心 2016年第9期2067-2084,共18页
提出一种区间分支时序逻辑——控制流区间时序逻辑(control flow interval temporal logic,CFITL),用于规约程序的时序属性.不同于计算树逻辑(computation tree logic,CTL)和线性时序逻辑(linear temporal logic,LTL)等传统的时序逻辑,C... 提出一种区间分支时序逻辑——控制流区间时序逻辑(control flow interval temporal logic,CFITL),用于规约程序的时序属性.不同于计算树逻辑(computation tree logic,CTL)和线性时序逻辑(linear temporal logic,LTL)等传统的时序逻辑,CFITL公式的语义模型不是基于状态的类Kripke结构,而是以程序的抽象模型控制流图(control flow graph,CFG)为基础所构建的含序CFG结构.含序CFG是CFG的一种受限子集,它们的拓扑结构可映射为偏序集,这样诱导产生的自然数区间可自然地用于描述定义良好的程序结构.这种结构含有程序的静态结构信息和动态行为信息,换而言之,CFITL具有规约程序实现结构属性和程序执行动态行为属性的能力.在定义CFITL的语法和语义的基础上,详细讨论了CFITL的模型检验问题,包括基于值状态空间可达性计算的模型检验方法和基于SMT(satisfiability modulo theories)的CFITL有界模型检验方法.现代程序都含有复杂且具有无限值域的抽象数据类型及各种复杂的操作,CFITL语义定义相比CTL等时序逻辑更复杂,因此,基于显示状态搜索的方法难以有效进行,而基于SMT的CFITL有界模型检验方法更易实现、更具有可行性.最近开发相关的原型工具,并进行相关的实例研究. 展开更多
关键词 区间时序逻辑 控制流程图 程序静态结构 模型检验 可满足性模理论
下载PDF
基于符号执行和LTL公式重写的测试用例产生方法 被引量:3
19
作者 刘全 《计算机研究与发展》 EI CSCD 北大核心 2013年第12期2661-2675,共15页
基于模型检验等形式化方法的测试用例自动产生技术成为测试自动化领域一项重要的进展.对于输入和输出为无界抽象数据类型的无限状态系统,利用传统模型检验技术难以有效地产生测试用例集合,提出基于符号执行和公式重写的测试用例产生方法... 基于模型检验等形式化方法的测试用例自动产生技术成为测试自动化领域一项重要的进展.对于输入和输出为无界抽象数据类型的无限状态系统,利用传统模型检验技术难以有效地产生测试用例集合,提出基于符号执行和公式重写的测试用例产生方法.通过建立程序的符号化执行模型,避免输入和输出变量数值化枚举而导致的无限状态系统的建模和状态爆炸问题;建立基于符号化执行模型的时序公式重写规则,并根据线性时序逻辑(linear temporal logic,LTL)公式的反例模式求取复杂属性及行为约束关系,利用约束求解的方法自动产生测试用例集合.这种方法集成了符号执行技术和时序公式状态重写——一种轻量级模型检验技术,成为基于复杂抽象数据类型系统与属性相关的测试用例自动产生的有效方法. 展开更多
关键词 测试用例自动产生 符号执行 公式重写 模型检验 线性时序逻辑 输入 输出符号变迁系统
下载PDF
Model Checking over Paraconsistent Temporal Logic
20
作者 王林章 崔家林 《Journal of Donghua University(English Edition)》 EI CAS 2008年第5期571-580,共10页
Classical logic cannot be used to effectively reason about concurrent systems with inconsistencies (inconsistencies often occur, especially in the early stage of the development, when large and complex concurrent syst... Classical logic cannot be used to effectively reason about concurrent systems with inconsistencies (inconsistencies often occur, especially in the early stage of the development, when large and complex concurrent systems are developed). In this paper, we propose the use of a guasi-classical temporal logic (QCTL) for supporting the verification of temporal properties of such systems even where the consistent model is not available. Our models are paraKripke structures (extended standard Kripke structures), in which both a formula and its negation are satisfied in a same state, and properties to be verified are expressed by QCTL with paraKripke structures semantics. We introduce a novel notion of paraKripke models, which grasps the paraconsistent character of the entailment relation of QCTL. Furthermore, we explore the methodology of model checking over QCTL, and describe the detailed algorithm of implementing QCTL model checker. In the sequel, a simple example is presented, showing how to exploit the proposed model checking technique to verify the temporal properties of inconsistent concurrent systems. 展开更多
关键词 INCONSISTENCY concurrent systems paraconsistent temporal logic model checking
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部