期刊文献+
共找到487篇文章
< 1 2 25 >
每页显示 20 50 100
AlphaGo技术原理分析及人工智能军事应用展望 被引量:73
1
作者 陶九阳 吴琳 胡晓峰 《指挥与控制学报》 2016年第2期114-120,共7页
以"深蓝"的技术原理为比对,研究了AlphaGo有监督学习策略网络、快速走子模型、增强学习策略网络和价值网络等核心模块,较为详细地分析了策略网络、价值网络引导的蒙特卡洛树搜索算法的实现;以AlphaGo的技术突破为起点,展望了... 以"深蓝"的技术原理为比对,研究了AlphaGo有监督学习策略网络、快速走子模型、增强学习策略网络和价值网络等核心模块,较为详细地分析了策略网络、价值网络引导的蒙特卡洛树搜索算法的实现;以AlphaGo的技术突破为起点,展望了人工智能在物理域、信息域、认知域和社会域上的可能应用,分析了美国国防部高级研究计划局资助的人工智能军事应用项目;以OODA循环理论为基础,研究了人工智能应用于军事领域可能会带来的颠覆性效果. 展开更多
关键词 深度学习 增强学习 态势感知 OODA循环
下载PDF
以现代工程为背景,进行生动有效的工程教育 被引量:42
2
作者 罗福午 于吉太 《高等工程教育研究》 CSSCI 北大核心 2004年第2期51-54,共4页
从新生入学起 ,就以现代工程为背景 ,以信息技术为手段 ,开设工程概论课 ,对学生进行工程教育 ,对工科学生建立工程意识、增强学习动力效果显著。而且 ,此课也可作为文、理科学生的选修课。
关键词 工程教育 理科学生 生动 选修课 新生入学 工科学生 工程意识 现代工程 增强学习 背景
下载PDF
神经网络增强学习的梯度算法研究 被引量:21
3
作者 徐昕 贺汉根 《计算机学报》 EI CSCD 北大核心 2003年第2期227-233,共7页
针对具有连续状态和离散行为空间的Markov决策问题 ,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法 .该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略 ,通过极小化具有非平稳行为策略的Bellman... 针对具有连续状态和离散行为空间的Markov决策问题 ,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法 .该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略 ,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标 ,以实现对Markov决策过程最优值函数的逼近 .对算法的收敛性和近似最优策略的性能进行了理论分析 .通过Mountain Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能 . 展开更多
关键词 神经网络 增强学习 梯度算法 MARKOV决策过程 值函数逼近 机器学习
下载PDF
机器学习在图书情报领域的应用研究 被引量:29
4
作者 张坤 王文韬 谢阳群 《图书馆学研究》 CSSCI 北大核心 2018年第1期47-52,共6页
旨在理清图书情报领域机器学习的研究现状,为未来机器学习在图书情报领域的深入开展提供实践探索和理论研究方面的参考。文章从机器学习的相关概念、图书情报领域内机器学习的研究热点主题以及机器学习在图书情报领域发展面临的机遇与... 旨在理清图书情报领域机器学习的研究现状,为未来机器学习在图书情报领域的深入开展提供实践探索和理论研究方面的参考。文章从机器学习的相关概念、图书情报领域内机器学习的研究热点主题以及机器学习在图书情报领域发展面临的机遇与挑战三个方面展开论述。研究表明,当前图书情报领域机器学习的研究热点主题主要集中在个性化推荐服务、智能信息检索和自动文本分类三个方面,图书情报领域机器学习的发展迎来了政策及战略红利,新信息技术迅猛发展和新算法效应所带来的发展机遇,也面临着摩尔定律及香农定理接近尾声的理论障碍和数据资源不够开放及专业型、全面型人才匮乏的实践障碍的挑战。 展开更多
关键词 机器学习 深度学习 增强学习
原文传递
面向多机器人系统的增强学习研究进展综述 被引量:22
5
作者 吴军 徐昕 +1 位作者 王健 贺汉根 《控制与决策》 EI CSCD 北大核心 2011年第11期1601-1610,1615,共11页
基于增强学习的多机器人系统优化控制是近年来机器人学与分布式人工智能的前沿研究领域.多机器人系统具有分布、异构和高维连续空间等特性,使得面向多机器人系统的增强学习的研究面临着一系列挑战,为此,对其相关理论和算法的研究进展进... 基于增强学习的多机器人系统优化控制是近年来机器人学与分布式人工智能的前沿研究领域.多机器人系统具有分布、异构和高维连续空间等特性,使得面向多机器人系统的增强学习的研究面临着一系列挑战,为此,对其相关理论和算法的研究进展进行了系统综述.首先,阐述了多机器人增强学习的基本理论模型和优化目标;然后,在对已有学习算法进行对比分析的基础上,重点探讨了多机器人增强学习理论与应用研究中的困难和求解思路,给出了若干典型问题和应用实例;最后,对相关研究进行了总结和展望. 展开更多
关键词 多机器人系统 多智能体 增强学习 随机对策 马氏决策过程
原文传递
基于马氏决策过程模型的动态系统学习控制:研究前沿与展望 被引量:20
6
作者 徐昕 沈栋 +1 位作者 高岩青 王凯 《自动化学报》 EI CSCD 北大核心 2012年第5期673-687,共15页
基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于... 基于马氏决策过程(Markov decision process,MDP)的动态系统学习控制是近年来一个涉及机器学习、控制理论和运筹学等多个学科的交叉研究方向,其主要目标是实现系统在模型复杂或者不确定等条件下基于数据驱动的多阶段优化控制.本文对基于MDP的动态系统学习控制理论、算法与应用的发展前沿进行综述,重点讨论增强学习(Reinforcement learning,RL)与近似动态规划(Approximate dynamic programming,ADP)理论与方法的研究进展,其中包括时域差值学习理论、求解连续状态与行为空间MDP的值函数逼近方法、直接策略搜索与近似策略迭代、自适应评价设计算法等,最后对相关研究领域的应用及发展趋势进行分析和探讨。 展开更多
关键词 学习控制 MARKOV决策过程 增强学习 近似动态规划 机器学习 自适应控制
下载PDF
基于增强学习的机械臂轨迹跟踪控制 被引量:19
7
作者 刘卫朋 邢关生 +1 位作者 陈海永 孙鹤旭 《计算机集成制造系统》 EI CSCD 北大核心 2018年第8期1996-2004,共9页
为了提高机器臂轨迹跟踪控制器的工作性能,提出基于增强学习的机械臂轨迹跟踪控制方法。介绍了增强学习的基本原理,提出基于SARSA算法的增强学习补偿控制策略。利用比例—微分(PD)控制器完成了基本的稳定任务后,再利用增强学习算法实现... 为了提高机器臂轨迹跟踪控制器的工作性能,提出基于增强学习的机械臂轨迹跟踪控制方法。介绍了增强学习的基本原理,提出基于SARSA算法的增强学习补偿控制策略。利用比例—微分(PD)控制器完成了基本的稳定任务后,再利用增强学习算法实现了对未知干扰因素的补偿,提升了对不同未知情况的适应能力。实验结果验证了自适应离散化增强学习方法在机械臂轨迹跟踪问题中的可行性和有效性,明显提高了控制器的学习速度。 展开更多
关键词 机器人 增强学习 轨迹跟踪 比例-微分控制器 前馈神经网络
下载PDF
未知环境下移动机器人路径规划方法 被引量:10
8
作者 石鸿雁 孙茂相 孙昌志 《沈阳工业大学学报》 EI CAS 2005年第1期63-69,共7页
路径规划是研究自主移动机器人技术中的一个重要领域,一般地可分为基于模型的环境已知的全局路径规划和基于传感器的环境未知的局部路径规划两种类型.对未知环境下移动机器人路径规划的方法和发展现状进行了总结,指出了各种方法的优点... 路径规划是研究自主移动机器人技术中的一个重要领域,一般地可分为基于模型的环境已知的全局路径规划和基于传感器的环境未知的局部路径规划两种类型.对未知环境下移动机器人路径规划的方法和发展现状进行了总结,指出了各种方法的优点与不足.最后对移动机器人路径规划的发展趋势进行了分析. 展开更多
关键词 移动机器人 未知环境 全局路径规划 局部路径规划 增强学习
下载PDF
一种新的多智能体Q学习算法 被引量:13
9
作者 郭锐 吴敏 +2 位作者 彭军 彭姣 曹卫华 《自动化学报》 EI CSCD 北大核心 2007年第4期367-372,共6页
针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择.同时对算法的收敛性和学习性能进... 针对非确定马尔可夫环境下的多智能体系统,提出了一种新的多智能体Q学习算法.算法中通过对联合动作的统计来学习其它智能体的行为策略,并利用智能体策略向量的全概率分布保证了对联合最优动作的选择.同时对算法的收敛性和学习性能进行了分析.该算法在多智能体系统RoboCup中的应用进一步表明了算法的有效性与泛化能力. 展开更多
关键词 多智能体 增强学习 Q学习
下载PDF
机器人足球赛中基于增强学习的任务分工 被引量:9
10
作者 顾冬雷 陈卫东 席裕庚 《机器人》 EI CSCD 北大核心 2000年第6期482-489,共8页
本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average-... 本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average- reward model)对算法进行了改进 ,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍 . 展开更多
关键词 机器人足球赛 增强学习 Q算法 任务分工
下载PDF
人工智能的前生、今世与未来 被引量:17
11
作者 汪子尧 贾娟 《软件》 2018年第2期223-226,共4页
本文回顾了人工智能历经沉浮的发展简史,研究了业界对人工智能最新成就的不同解读和评价,对比分析了关于人工智能的两条技术路线之争,以及人工智能在不同应用领域表现出来的优势和短板,最后对人工智能的未来发展愿景进行了展望。
关键词 人工智能 发展史 神经网络 深度学习 增强学习
下载PDF
基于增强学习的变体飞行器自适应变体策略与飞行控制方法研究 被引量:12
12
作者 闫斌斌 李勇 +1 位作者 戴沛 邢慕增 《西北工业大学学报》 EI CAS CSCD 北大核心 2019年第4期656-663,共8页
变体飞行器能根据飞行环境和飞行任务的需要,相应地改变外形,从而始终保持最优的飞行状态,以满足在大飞行包线下执行多种任务的要求。以具有多种翼型的Firebee无人机作为研究对象,利用DATCOM计算气动数据,并展开气动分析。之后,基于增... 变体飞行器能根据飞行环境和飞行任务的需要,相应地改变外形,从而始终保持最优的飞行状态,以满足在大飞行包线下执行多种任务的要求。以具有多种翼型的Firebee无人机作为研究对象,利用DATCOM计算气动数据,并展开气动分析。之后,基于增强学习理论,提出一种新型的变体飞行器翼型自适应控制方法。该方法可以很好地满足变体飞行器在多任务状态下保持最优性能的需要,并且设计的高度子系统的三回路法向过载控制器和速度子系统的滑模控制器可以确保飞行器在变体过程中保持稳定,并且跟踪误差较小。 展开更多
关键词 变体飞行器 纵向模型 增强学习 飞行控制
下载PDF
路网空间下基于马尔可夫决策过程的异常车辆轨迹检测算法 被引量:10
13
作者 毛江云 吴昊 孙未未 《计算机学报》 EI CSCD 北大核心 2018年第8期1928-1942,共15页
随着Internet、移动通信、空间定位和LBS技术的发展,越来越多的车辆轨迹被收集,如何从大量的车辆轨迹中高效检测出异常轨迹逐渐引起人们的关注.研究人员提出了许多针对车辆轨迹的异常检测方案,从采用的算法来划分,这些方案被分为三类:... 随着Internet、移动通信、空间定位和LBS技术的发展,越来越多的车辆轨迹被收集,如何从大量的车辆轨迹中高效检测出异常轨迹逐渐引起人们的关注.研究人员提出了许多针对车辆轨迹的异常检测方案,从采用的算法来划分,这些方案被分为三类:基于度量的算法、基于统计的算法和基于监督与半监督学习的算法.三类算法都各自存在不足:第一类的计算量随轨迹数据量的增长而增长,对异常特征的刻画不完整;第二类严重依赖历史数据,因此没有办法解决轨迹稀疏问题;第三类需要大量的人工标注.该文提出了一套路网空间下基于马尔可夫决策过程的异常车辆轨迹检测算法,该算法总共分为预处理、离线训练和在线检测三个阶段.预处理阶段采用了隐马尔可夫地图匹配算法作为核心,将原出租车轨迹转化为由路网空间中路段边序列表示的轨迹集合.离线训练阶段采用了马尔可夫决策过程模型对车辆驾驶行为进行建模,深入讨论了模型中路段奖励函数的设计规则,并提出采用无监督的贝叶斯反向增强学习算法配合蒙特卡洛采样算法训练历史车辆轨迹数据学习得到模型参数.在线检测阶段中,实时计算待检测的轨迹的异常度,通过用户指定的异常度阈值判断该轨迹是否为异常车辆轨迹.最后,在真实数据集上进行实验,同时实现了iBOAT算法和MEX算法,并作为对比算法.正确性实验中,该算法在NDCG评测指标中达到了99.3%的正确率;在算法的运行时间上,该算法的单条轨迹在线检测时间能够做到仅耗时0.012ms,较已有算法提升百倍到千倍的效率.在稀疏数据下进行结果正确性实验,在对比算法的效果严重受影响的情况下,该算法依然展现出很强的鲁棒性.在样例分析中可以看到通过该算法计算得到的路段奖励函数数值和对真实驾驶行为的评估高度一致. 展开更多
关键词 异常检测 轨迹计算 马尔可夫决策过程 增强学习 基于位置的服务
下载PDF
基于增强学习的六足机器人自由步态规划 被引量:10
14
作者 李满宏 张明路 +2 位作者 张建华 田颖 马艳悦 《机械工程学报》 EI CAS CSCD 北大核心 2019年第5期36-44,共9页
为解决六足机器人步态规划问题,实现特定地形上机器人自由步态的优化学习,基于机器人单足步距的离散化处理,融合CPG模型的时间节拍原理与反射模型的空间规则约束机制,构建六足机器人离散化步态模型。通过机器人稳定性分析与步态规划策... 为解决六足机器人步态规划问题,实现特定地形上机器人自由步态的优化学习,基于机器人单足步距的离散化处理,融合CPG模型的时间节拍原理与反射模型的空间规则约束机制,构建六足机器人离散化步态模型。通过机器人稳定性分析与步态规划策略研究,将复杂的步态规划问题转化为以振荡周期为时间间隔的位置状态间的排序问题,从新的视角提出了一种六足机器人自由步态规划的基本框架与方法。在此基础上,模仿生物步态的学习行为,基于步态序列的离散化处理,构建了基于增强学习的步态模型,并以机器人平均稳定裕量为优化目标,通过制定步态离散单元间动态转换概率的调整策略,提出了基于增强学习的自由步态规划方法。样机试验显示,自由步态规划方法与基于增强学习的自由步态规划方法均可规划出相对符合生物步态行为特征的稳定自由步态,且后者可利用步态历史信息实现特定地形上自由步态的优化学习。 展开更多
关键词 六足机器人 自由步态 步态规划 增强学习 离散化
原文传递
基于进化-增强学习方法的插电式混合动力公交车能量管理策略 被引量:10
15
作者 陈征 刘亚辉 杨芳 《机械工程学报》 EI CAS CSCD 北大核心 2017年第16期86-93,共8页
插电式混合动力客车越来越多出现在城市公交领域。为了更好地提升车辆的燃油经济性,整车能量管理策略成为一大研究热点。提出一种基于进化-增强学习方法的插电式混合动力公交车能量优化管理策略。首先,给出简化的车辆模型并基于增强学... 插电式混合动力客车越来越多出现在城市公交领域。为了更好地提升车辆的燃油经济性,整车能量管理策略成为一大研究热点。提出一种基于进化-增强学习方法的插电式混合动力公交车能量优化管理策略。首先,给出简化的车辆模型并基于增强学习系统给出能耗的优化目标函数;其次,针对此优化目标函数给出了初始的控制策略种群,并用进化算法求出最优的能量控制策略和最优能耗值;最后,通过仿真分析验证了算法的有效性。提出的新方法相对传统的电量消耗-维持(Charge depleting charge sustaining,CDCS)策略减少了大约12%的花费。 展开更多
关键词 同轴并联 插电式混合动力公交车 能量管理策略 增强学习 进化算法
下载PDF
基于案例推理增强学习的磨矿过程设定值优化 被引量:10
16
作者 代伟 王献伟 +1 位作者 路兴龙 柴天佑 《控制理论与应用》 EI CAS CSCD 北大核心 2019年第1期53-64,共12页
磨矿粒度和循环负荷是磨矿过程产品质量与生产效率的关键运行指标,相对于底层控制偏差,回路设定值对其影响要严重的多.然而,磨矿过程受矿石成分与性质、设备状态等变化因素影响,运行工况动态时变,难以建立模型,因此难以通过传统的模型... 磨矿粒度和循环负荷是磨矿过程产品质量与生产效率的关键运行指标,相对于底层控制偏差,回路设定值对其影响要严重的多.然而,磨矿过程受矿石成分与性质、设备状态等变化因素影响,运行工况动态时变,难以建立模型,因此难以通过传统的模型方法优化回路设定值.本文将增强学习与案例推理相结合,提出一种数据驱动的磨矿过程设定值优化方法.首先根据当前运行工况,采用基于Prey-Predator优化的案例推理方法,决策出可行的基于Elman神经网络的Q函数网络模型;然后利用实际运行数据,在增强学习的框架下,根据Q函数网络模型优化回路设定值.在基于METSIM的磨矿流程模拟系统上进行实验研究,结果表明所提方法可根据工况变化在线优化回路设定值,实现磨矿运行指标的优化控制. 展开更多
关键词 案例推理 增强学习 神经网络 设定值优化 磨矿过程
下载PDF
基于增强学习的多agent自动协商研究 被引量:6
17
作者 杨明 嘉莉 邱玉辉 《计算机工程与应用》 CSCD 北大核心 2004年第33期98-100,117,共4页
该文通过对协商协议的引入,对提议形式、协商流程的分析,结合多属性效用理论和连续决策过程,提出了一个开放的、动态的、支持学习机制的形式化多问题自动协商模型。并在模型的基础上分别对评估提议、更新信念、生成提议等协商过程作了... 该文通过对协商协议的引入,对提议形式、协商流程的分析,结合多属性效用理论和连续决策过程,提出了一个开放的、动态的、支持学习机制的形式化多问题自动协商模型。并在模型的基础上分别对评估提议、更新信念、生成提议等协商过程作了详细描述;对传统Q学习进行了扩充,设计了基于agent的当前信念和最近探索盈余的动态Q学习算法。 展开更多
关键词 增强学习 自动协商 Q学习 评估提议
下载PDF
一种具有自主学习能力的并发协商模型 被引量:9
18
作者 张谦 邱玉辉 《计算机应用》 CSCD 北大核心 2006年第3期663-665,共3页
提出一种具有自主学习能力的并发协商模型,通过使用增强学习方法的Q学习算法生成协商提议,使用相似度方法评价提议,使得Agent能够在半竞争、信息不完全和不确定以及存在最大协商时间的情况下,更为有效地完成多议题多Agent并发协商。
关键词 并发协商 自动协商 增强学习 Q学习 相似度方法
下载PDF
基于Elman网络的非线性系统增强式学习控制 被引量:8
19
作者 王雪松 程玉虎 +1 位作者 易建强 王炜强 《中国矿业大学学报》 EI CAS CSCD 北大核心 2006年第5期653-657,共5页
针对具有连续状态和未知系统模型的非线性系统控制问题,提出一种基于Elman神经网络的Q学习控制策略.利用Elman网络良好的动态特性及泛化能力,对状态-动作对的Q值进行在线估计,解决状态空间泛化中易出现的“维数灾”问题.借鉴TD(λ)算法... 针对具有连续状态和未知系统模型的非线性系统控制问题,提出一种基于Elman神经网络的Q学习控制策略.利用Elman网络良好的动态特性及泛化能力,对状态-动作对的Q值进行在线估计,解决状态空间泛化中易出现的“维数灾”问题.借鉴TD(λ)算法中状态的资格迹机制,通过对权值向量定义对应的资格迹来加速神经网络的学习过程.将所提方法应用于具有连续状态的小车爬山控制问题,学习系统在经过大约60多次学习后即能获得小车爬山控制策略,仿真结果表明所提方法能够有效解决具有连续状态的非线性系统的无模型增强学习控制. 展开更多
关键词 非线性系统 增强学习 Q学习 ELMAN网络 资格迹
下载PDF
无人直升机的姿态增强学习控制设计与验证 被引量:9
20
作者 安航 鲜斌 《控制理论与应用》 EI CAS CSCD 北大核心 2019年第4期516-524,共9页
针对小型无人直升机的姿态控制问题,考虑到现有基于模型的控制方法对直升机动力学模型的先验信息依赖较大,以及未建模动态系统的影响等问题,设计了一种基于增强学习(RL)的飞行控制算法.仅利用直升机的在线飞行数据,补偿了未建模不确定... 针对小型无人直升机的姿态控制问题,考虑到现有基于模型的控制方法对直升机动力学模型的先验信息依赖较大,以及未建模动态系统的影响等问题,设计了一种基于增强学习(RL)的飞行控制算法.仅利用直升机的在线飞行数据,补偿了未建模不确定性的影响.同时为了抑制外界扰动,提高系统的鲁棒性,设计了一种基于误差符号函数积分的鲁棒(RISE)控制算法.将两种算法结合,并利用基于Lyapunov分析的方法,证明了无人机姿态控制误差的半全局渐近收敛.最后在无人直升机飞行控制实验平台上,进行了姿态控制的实时实验验证.实验结果表明,本文提出的控制方法具有良好的控制效果,对系统不确定性和外界风扰具有良好鲁棒性. 展开更多
关键词 无人直升机 增强学习 鲁棒控制 神经网络 实验验证
下载PDF
上一页 1 2 25 下一页 到第
使用帮助 返回顶部