期刊文献+
共找到128篇文章
< 1 2 7 >
每页显示 20 50 100
企业投资决策中的同行效应研究:模仿与学习 被引量:43
1
作者 杨海生 柳建华 +1 位作者 连玉君 江颖臻 《经济学(季刊)》 CSSCI 北大核心 2020年第4期1375-1400,共26页
非均衡的投资增长阻碍了中国经济的健康发展。本文考察2001—2015年间我国上市公司新增投资的同行效应。研究表明,公司投资决策中确实存在同行效应。企业的新增投资与同行投资呈显著正相关关系,企业也会接收同行企业财务特征传递的信号... 非均衡的投资增长阻碍了中国经济的健康发展。本文考察2001—2015年间我国上市公司新增投资的同行效应。研究表明,公司投资决策中确实存在同行效应。企业的新增投资与同行投资呈显著正相关关系,企业也会接收同行企业财务特征传递的信号修正自身的投资策略,即同行效应有模仿和学习之分。企业偏向模仿同行中规模较大的企业。地方政府制定的政策会进一步加剧模仿效应,且不同产权性质的企业受同行效应及政策冲击的影响不尽相同。 展开更多
关键词 企业投资 同行效应 模仿与学习
原文传递
基于平均报酬模型全过程R(λ)学习的互联电网CPS最优控制 被引量:10
2
作者 余涛 袁野 《电力系统自动化》 EI CSCD 北大核心 2010年第21期27-33,共7页
提出了一种新颖的基于平均报酬模型的全过程R(λ)学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制(AGC)追求较高的考核时间段内的10min平均控制性能标准(CPS)指标合格率的目标相吻合,且所提出的基于平均报酬模型的R(λ)学... 提出了一种新颖的基于平均报酬模型的全过程R(λ)学习互联电力系统CPS最优控制方法。该方法与电网自动发电控制(AGC)追求较高的考核时间段内的10min平均控制性能标准(CPS)指标合格率的目标相吻合,且所提出的基于平均报酬模型的R(λ)学习算法与基于折扣报酬模型的Q(λ)学习算法相比,在线学习收敛速度更快,可获得更佳的CPS指标。此外,所提出的改进的R(λ)控制器具有全过程在线学习的特点,其预学习过程被一种新型的在线"模仿学习"所代替,克服了以往强化学习控制需要另外搭建仿真模型来进行预学习收敛的严重缺陷,提高了R(λ)控制器的学习效率及其在实际电力系统中的应用性。 展开更多
关键词 控制性能标准(CPS) 自动发电控制(AGC) 平均报酬模型 R(λ)学习 模仿学习
下载PDF
同群效应与企业产融结合策略选择——来自上市公司持股金融机构的实证证据 被引量:7
3
作者 夏子航 李天钰 辛宇 《证券市场导报》 CSSCI 北大核心 2019年第6期20-31,共12页
本文以2006~2015年沪深A股上市公司为研究样本,考察上市公司产融结合区域同群效应的存在性,以及同群效应下目标企业模仿学习的基准选择倾向。研究发现:企业产融结合具有明显的区域同群效应,并且产融结合的区域同群效应,主要存在于持股... 本文以2006~2015年沪深A股上市公司为研究样本,考察上市公司产融结合区域同群效应的存在性,以及同群效应下目标企业模仿学习的基准选择倾向。研究发现:企业产融结合具有明显的区域同群效应,并且产融结合的区域同群效应,主要存在于持股银行以及持股财务公司这两种融合模式;在模仿学习的标杆选取上,上市公司更倾向于模仿学习区域内规模较大企业的产融结合行为,但盈利能力未成为区域内企业选取产融结合仿效对象的基准之一,并且同群行为局限于相同产权属性企业之间;进一步发现,市场竞争以及市场化进程水平提升,均会加强上述同群效应。本文揭示了企业产融结合同群效应的存在性以及学习机制,同时为公司金融化现象提供了新的解释。 展开更多
关键词 产融结合 区域同群效应 市场环境 模仿学习
下载PDF
机器人操作技能学习方法综述 被引量:39
4
作者 刘乃军 鲁涛 +1 位作者 蔡莹皓 王硕 《自动化学报》 EI CSCD 北大核心 2019年第3期458-470,共13页
结合人工智能技术和机器人技术,研究具备一定自主决策和学习能力的机器人操作技能学习系统,已逐渐成为机器人研究领域的重要分支.本文介绍了机器人操作技能学习的主要方法及最新的研究成果.依据对训练数据的使用方式将机器人操作技能学... 结合人工智能技术和机器人技术,研究具备一定自主决策和学习能力的机器人操作技能学习系统,已逐渐成为机器人研究领域的重要分支.本文介绍了机器人操作技能学习的主要方法及最新的研究成果.依据对训练数据的使用方式将机器人操作技能学习方法分为基于强化学习的方法、基于示教学习的方法和基于小数据学习的方法,并基于此对近些年的研究成果进行了综述和分析,最后列举了机器人操作技能学习的未来发展方向. 展开更多
关键词 机器人 操作技能 强化学习 示教学习 小数据学习
下载PDF
镜像神经元系统的基本理论及其在运动功能康复中的意义 被引量:30
5
作者 崔尧 丛芳 刘霖 《中国康复理论与实践》 CSCD 北大核心 2012年第3期239-243,共5页
镜像神经元系统提供了一种动作观察-执行匹配机制,在动作观察、动作模仿、运动想象及运动学习等神经生理学过程中起重要作用,是动作观察疗法、运动想象疗法、镜像疗法、虚拟现实疗法及脑-机接口技术等的重要神经机制。
关键词 镜像神经元 动作观察 运动想象 模仿学习 镜像疗法 虚拟现实 脑-机接口 综述
下载PDF
基于生成对抗网络的模仿学习综述 被引量:19
6
作者 林嘉豪 章宗长 +1 位作者 姜冲 郝建业 《计算机学报》 EI CSCD 北大核心 2020年第2期326-351,共26页
模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化... 模仿学习研究如何从专家的决策数据中进行学习,以得到接近专家水准的决策模型.同样学习如何决策的强化学习往往只根据环境的评价式反馈进行学习,与之相比,模仿学习能从决策数据中获得更为直接的反馈.它可以分为行为克隆、基于逆向强化学习的模仿学习两类方法.基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程,并反复迭代.逆向强化学习用于推导符合专家决策数据的奖赏函数,而强化学习基于该奖赏函数来学习策略.基于生成对抗网络的模仿学习方法从基于逆向强化学习的模仿学习发展而来,其中最早出现且最具代表性的是生成对抗模仿学习方法(Generative Adversarial Imitation Learning,简称GAIL).生成对抗网络由两个相对抗的神经网络构成,分别为判别器和生成器.GAIL的特点是用生成对抗网络框架求解模仿学习问题,其中,判别器的训练过程可类比奖赏函数的学习过程,生成器的训练过程可类比策略的学习过程.与传统模仿学习方法相比,GAIL具有更好的鲁棒性、表征能力和计算效率.因此,它能够处理复杂的大规模问题,并可拓展到实际应用中.然而,GAIL存在着模态崩塌、环境交互样本利用效率低等问题.最近,新的研究工作利用生成对抗网络技术和强化学习技术等分别对这些问题进行改进,并在观察机制、多智能体系统等方面对GAIL进行了拓展.本文先介绍了GAIL的主要思想及其优缺点,然后对GAIL的改进算法进行了归类、分析和对比,最后总结全文并探讨了可能的未来趋势. 展开更多
关键词 模仿学习 基于生成对抗网络的模仿学习 生成对抗模仿学习 模态崩塌 样本利用效率
下载PDF
基于模仿学习和强化学习的智能车辆换道行为决策 被引量:17
7
作者 宋晓琳 盛鑫 +3 位作者 曹昊天 李明俊 易滨林 黄智 《汽车工程》 EI CSCD 北大核心 2021年第1期59-67,共9页
本文中提出了一种基于模仿学习和强化学习的智能车辆换道行为决策方法。其中宏观决策模块通过模仿学习构建极端梯度提升模型,根据输入信息在车道保持、左换道和右换道中选择宏观决策指令,以此确定所需求解的换道行为决策子问题;各细化... 本文中提出了一种基于模仿学习和强化学习的智能车辆换道行为决策方法。其中宏观决策模块通过模仿学习构建极端梯度提升模型,根据输入信息在车道保持、左换道和右换道中选择宏观决策指令,以此确定所需求解的换道行为决策子问题;各细化决策子模块通过深度确定性策略梯度强化学习方法得到优化策略,求解相应换道行为决策子问题,以确定车辆运动目标位置并下发执行。仿真结果表明:本文中提出方法的策略学习速度比单纯强化学习方法快,且其综合性能优于有限状态机、行为克隆模仿学习和单纯强化学习等方法。 展开更多
关键词 智能车辆 行为决策 强化学习 模仿学习
下载PDF
双臂机器人的协调控制算法综述 被引量:17
8
作者 王琪 闵华松 《计算机工程与应用》 CSCD 北大核心 2021年第1期1-16,共16页
双臂机器人系统是当前机器人领域的研究热点,特别是随着单臂机器人在操作能力、控制等方面的局限性不断凸显,最近的研究集中在拥有协调操作能力的冗余双臂机器人。对双臂操作进行分类,然后从双臂协调运动方式、双臂协调控制问题、感知... 双臂机器人系统是当前机器人领域的研究热点,特别是随着单臂机器人在操作能力、控制等方面的局限性不断凸显,最近的研究集中在拥有协调操作能力的冗余双臂机器人。对双臂操作进行分类,然后从双臂协调运动方式、双臂协调控制问题、感知传感器、模仿学习、人机交互五个方面进行分析;综述从运动学、动力学现状入手,分析了双臂协调控制与单臂控制方式在约束关系、运动规划、协调控制方式等方面的不同与发展,结合感知传感器、模仿学习等方法在双臂协调控制中的应用;对人机协作中的交互方式进行了分析,并对双臂机器人的未来研究方向进行了展望。 展开更多
关键词 双臂操作 运动建模 双臂协调控制 模仿学习 人机交互
下载PDF
基于Kinect的Nao机器人动作模仿系统的研究与实现 被引量:15
9
作者 于建均 门玉森 +1 位作者 阮晓钢 赵少琼 《智能系统学报》 CSCD 北大核心 2016年第2期180-187,共8页
为避开复杂繁琐的底层运动控制,使机器人能够通过学习实现运动技能的获取,有效提高其智能性,将体态感知技术与仿人机器人Nao相结合,以机器人的模仿学习框架为指导,开发并实现了基于Kinect的Nao机器人动作模仿系统。利用Kinect体感摄像... 为避开复杂繁琐的底层运动控制,使机器人能够通过学习实现运动技能的获取,有效提高其智能性,将体态感知技术与仿人机器人Nao相结合,以机器人的模仿学习框架为指导,开发并实现了基于Kinect的Nao机器人动作模仿系统。利用Kinect体感摄像机的骨骼跟踪技术,采集示教者骨骼点信息,经预处理后得到示教数据,通过高斯混合模型(GMM)对示教数据进行表征学习,经高斯混合回归(GMR)泛化处理后,映射到Nao机器人中,实现动作的模仿。实验结果表明,Nao机器人能够进行实时和离线的动作模仿,运动轨迹平滑而稳定,动作模仿的效果较好。 展开更多
关键词 模仿学习 机器人控制 体态感知 概率模型 高斯混合模型 高斯混合回归
下载PDF
机器人运动轨迹的模仿学习综述 被引量:11
10
作者 黄艳龙 徐德 谭民 《自动化学报》 EI CAS CSCD 北大核心 2022年第2期315-334,共20页
作为机器人技能学习中的一个重要分支,模仿学习近年来在机器人系统中得到了广泛的应用.模仿学习能够将人类的技能以一种相对直接的方式迁移到机器人系统中,其思路是先从少量示教样本中提取相应的运动特征,然后将该特征泛化到新的情形.... 作为机器人技能学习中的一个重要分支,模仿学习近年来在机器人系统中得到了广泛的应用.模仿学习能够将人类的技能以一种相对直接的方式迁移到机器人系统中,其思路是先从少量示教样本中提取相应的运动特征,然后将该特征泛化到新的情形.本文针对机器人运动轨迹的模仿学习进行综述.首先详细解释模仿学习中的技能泛化、收敛性和外插等基本问题;其次从原理上对动态运动基元、概率运动基元和核化运动基元等主要的模仿学习算法进行介绍;然后深入地讨论模仿学习中姿态和刚度矩阵的学习问题、协同和不确定性预测的问题以及人机交互中的模仿学习等若干关键问题;最后本文探讨了结合因果推理的模仿学习等几个未来的发展方向. 展开更多
关键词 机器人技能学习 模仿学习 运动基元 轨迹学习
下载PDF
Deep Imitation Learning for Autonomous Vehicles Based on Convolutional Neural Networks 被引量:10
11
作者 Parham M.Kebria Abbas Khosravi +1 位作者 Syed Moshfeq Salaken Saeid Nahavandi 《IEEE/CAA Journal of Automatica Sinica》 EI CSCD 2020年第1期82-95,共14页
Providing autonomous systems with an effective quantity and quality of information from a desired task is challenging. In particular, autonomous vehicles, must have a reliable vision of their workspace to robustly acc... Providing autonomous systems with an effective quantity and quality of information from a desired task is challenging. In particular, autonomous vehicles, must have a reliable vision of their workspace to robustly accomplish driving functions. Speaking of machine vision, deep learning techniques, and specifically convolutional neural networks, have been proven to be the state of the art technology in the field. As these networks typically involve millions of parameters and elements, designing an optimal architecture for deep learning structures is a difficult task which is globally under investigation by researchers. This study experimentally evaluates the impact of three major architectural properties of convolutional networks, including the number of layers, filters, and filter size on their performance. In this study, several models with different properties are developed,equally trained, and then applied to an autonomous car in a realistic simulation environment. A new ensemble approach is also proposed to calculate and update weights for the models regarding their mean squared error values. Based on design properties,performance results are reported and compared for further investigations. Surprisingly, the number of filters itself does not largely affect the performance efficiency. As a result, proper allocation of filters with different kernel sizes through the layers introduces a considerable improvement in the performance.Achievements of this study will provide the researchers with a clear clue and direction in designing optimal network architectures for deep learning purposes. 展开更多
关键词 Autonomous vehicles convolutional neural networks deep learning imitation learning
下载PDF
基于电网专家策略模仿学习的新型电力系统实时调度 被引量:7
12
作者 朱介北 徐思旸 +5 位作者 李炳森 王云逸 王杨 俞露杰 熊雪君 王成山 《电网技术》 EI CSCD 北大核心 2023年第2期517-528,共12页
随着可再生能源的大规模并网,电网运行逐渐表现出高阶不确定性的新特征,给系统安全稳定运行带来严峻挑战。基于模型驱动的传统实时调度方法需占用大量计算资源,而近几年受到广泛关注的强化学习(reinforcement learning,RL)方法由于处理... 随着可再生能源的大规模并网,电网运行逐渐表现出高阶不确定性的新特征,给系统安全稳定运行带来严峻挑战。基于模型驱动的传统实时调度方法需占用大量计算资源,而近几年受到广泛关注的强化学习(reinforcement learning,RL)方法由于处理高维复杂电网状态信息,存在训练速度缓慢等问题。为此,该文提出一种可用于电网实时调度的电网专家策略模仿学习方法(grid expert strategy imitation learning,GESIL)。该方法首先基于图论思想建立了电网模型,其次设计了考虑电网安全运行和电力平衡控制的电网专家策略,然后利用模仿学习融合专家策略与所建模型,获得可用于电网调度决策的GESIL智能体。该文在高比例新能源占比的IEEE118节点修正模型中对比了GESIL、传统调度方法和RL方法。分析结果表明,GESIL可更加稳定高效地计算出电网运行优化方案和电力平衡控制策略,显著提升调度决策的优化效果和计算速度。 展开更多
关键词 实时调度 模仿学习 电网专家策略 N-1安全运行 强化学习
下载PDF
基于逆强化学习的示教学习方法综述 被引量:10
13
作者 张凯峰 俞扬 《计算机研究与发展》 EI CSCD 北大核心 2019年第2期254-261,共8页
随着强化学习在自动机器人控制、复杂决策问题上的广泛应用,强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得到策略的学习方式.然而,大多数多步决策问题难以给出传统强化... 随着强化学习在自动机器人控制、复杂决策问题上的广泛应用,强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得到策略的学习方式.然而,大多数多步决策问题难以给出传统强化学习所需要的反馈信号.这逐渐成为强化学习在更多复杂问题中实现应用的瓶颈.逆强化学习是基于专家决策轨迹最优的假设,在马尔可夫决策过程中逆向求解反馈函数的一类算法.目前,通过将逆强化学习和传统正向强化学习相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果.对强化学习、逆强化学习以及示教学习方法做一定介绍,此外还介绍了逆强化学习在应用过程中所需要解决的问题以及基于逆强化学习的示教学习方法. 展开更多
关键词 强化学习 示教学习 逆强化学习 马尔可夫决策过程 多步决策问题
下载PDF
迭代学习神经网络控制在机器人示教学习中的应用(英文) 被引量:8
14
作者 蒋平 李自育 陈阳泉 《控制理论与应用》 EI CAS CSCD 北大核心 2004年第3期447-452,共6页
示教学习是机器人运动技能获取的一种高效手段.当采用摄像机作为示教轨迹记录部件时,示教学习涉及如何通过反复尝试获得未知机器人摄像机模型问题.本文力图针对非线性系统重复作业中的可重复不确定性学习,提出一个迭代学习神经网络控制... 示教学习是机器人运动技能获取的一种高效手段.当采用摄像机作为示教轨迹记录部件时,示教学习涉及如何通过反复尝试获得未知机器人摄像机模型问题.本文力图针对非线性系统重复作业中的可重复不确定性学习,提出一个迭代学习神经网络控制方案,该控制器将保证系统最大跟踪误差维持在神经网络有效近似域内.为此提出了一个适合于重复作业应用的分布式神经网络结构.该神经网络由沿期望轨线分布的一系列局部神经网络构成,每一局部神经网络对对应期望轨迹点邻域进行近似并通过重复作业完成网络训练.由于所设计的局部神经网络相互独立,因此一个全程轨迹可以通过分段训练完成,由起始段到结束段,逐段实现期望轨迹的准确跟踪.该方法在具有未知机器人摄像机模型的轨迹示教模仿中得到验证,显示了它是一种高效的训练方法,同时具有一致的误差限界能力. 展开更多
关键词 迭代学习控制 神经网络控制 视觉伺服 模仿学习
下载PDF
模仿学习方法综述及其在机器人领域的应用 被引量:9
15
作者 李帅龙 张会文 周维佳 《计算机工程与应用》 CSCD 北大核心 2019年第4期17-30,共14页
模仿学习一直是人工智能领域的研究热点。模仿学习是一种基于专家示教重建期望策略的方法。近年来,在理论研究中,此方法和强化学习等方法结合,已经取得了重要成果;在实际应用中,尤其是在机器人和其他智能体的复杂环境中,模仿学习取得了... 模仿学习一直是人工智能领域的研究热点。模仿学习是一种基于专家示教重建期望策略的方法。近年来,在理论研究中,此方法和强化学习等方法结合,已经取得了重要成果;在实际应用中,尤其是在机器人和其他智能体的复杂环境中,模仿学习取得了很好的效果。主要阐述了模仿学习在机器人学领域的研究与运用。介绍了和模仿学习相关的理论知识;研究了模仿学习的两类主要方法:行为克隆学习方法和逆强化学习方法;对模仿学习的成功应用进行总结;最后,给出当前面对的问题和挑战并且展望未来发展趋势。 展开更多
关键词 人工智能 行为克隆 逆强化学习 模仿学习
下载PDF
基于双层模仿学习的多园区综合能源系统分布式协同优化调度 被引量:8
16
作者 程义 李更丰 《电力系统自动化》 EI CSCD 北大核心 2022年第24期16-25,共10页
针对多园区综合能源系统协同调度存在的源荷及电价等多重不确定性因素和隐私保护问题,提出一种分布式协同双层优化模型。模型上层采用通信神经网络依据即时信息决策各园区储能动作,通过模仿学习进行监督式训练,使智能体获得预测决策一... 针对多园区综合能源系统协同调度存在的源荷及电价等多重不确定性因素和隐私保护问题,提出一种分布式协同双层优化模型。模型上层采用通信神经网络依据即时信息决策各园区储能动作,通过模仿学习进行监督式训练,使智能体获得预测决策一体化功能;下层由各园区采用交替方向乘子法进行分布式优化,得到其他设备动作及园区间电力交互量,形成当前时段完整的多园区分布式协同优化运行方案,并提出了考虑上级电网实时电价和多园区系统供求关系的园区间交易机制以保障各园区利益。算例证明所提方法不依赖于对源荷及电价等不确定性因素的准确预测,能够在保护各园区数据隐私的前提下达到与理论最优策略接近的性能。 展开更多
关键词 多园区综合能源系统 分布式优化 多重不确定性 通信神经网络 模仿学习 交替方向乘子法
下载PDF
一种基于强化学习的小库位自动平行泊车运动规划方法 被引量:8
17
作者 孙宏伟 陈慧 宋绍禹 《汽车技术》 CSCD 北大核心 2021年第9期17-26,共10页
为解决传统方法或基于强化学习的方法在狭小空间下平行泊车效率较低的问题,基于蒙特卡罗树搜索(MCTS)方法,同时规划倒车入库和库位内调整阶段。在MCTS过程中同时考虑纵向动作(速度)与横向动作(转向盘转角),引入模仿学习(IL),利用非线性... 为解决传统方法或基于强化学习的方法在狭小空间下平行泊车效率较低的问题,基于蒙特卡罗树搜索(MCTS)方法,同时规划倒车入库和库位内调整阶段。在MCTS过程中同时考虑纵向动作(速度)与横向动作(转向盘转角),引入模仿学习(IL),利用非线性规划的演示数据获得初始化策略神经网络,并使用强化学习(RL)对其进行改进,训练时间从20 h缩短到1 h,采用滑模控制器作为横向控制器来跟踪规划的路径,车辆运动方向可通过绑定在规划路径上的规划速度的方向确定。仿真验证和实车测试结果表明,该方法可同时规划倒车入库阶段和库位内调整阶段,位置误差可达5 cm,航向角误差可达0.5°。 展开更多
关键词 平行泊车 运动规划 模仿学习 强化学习 滑模控制器
下载PDF
基于生成对抗模仿学习的电力系统动态经济调度 被引量:7
18
作者 陈海东 蒙飞 +5 位作者 张越 孙阳 张静忠 单连飞 吕晓茜 张沛 《电网技术》 EI CSCD 北大核心 2022年第11期4373-4380,共8页
新能源自身所固有的波动性、间歇性与随机性使电网的调度运行面临更加严峻的挑战。如何安排适应新能源出力不确定性的调度方案是调度部门亟待解决的问题。该文提出基于生成对抗模仿学习的动态经济调度模型。首先构建生成器网络,使其通... 新能源自身所固有的波动性、间歇性与随机性使电网的调度运行面临更加严峻的挑战。如何安排适应新能源出力不确定性的调度方案是调度部门亟待解决的问题。该文提出基于生成对抗模仿学习的动态经济调度模型。首先构建生成器网络,使其通过观测系统状态生成调度策略。受强化学习近端策略优化算法目标函数的启发,创新地构造出生成器网络的损失函数,反向传递更新网络参数以优化调度策略。其次,该文借鉴美国电力市场的完美调度思想,可离线计算理想调度方案,并将其作为专家策略指导生成器网络的学习。进一步,该文构建判别器网络,令其识别生成策略与完美调度策略,输出辨别结果,辅助生成器网络更新。在离线训练中,生成器与判别器在博弈对抗中达到纳什均衡状态;投入在线应用时,可根据新能源与负荷预测数据,安排兼顾经济性并考虑不确定性的火电机组出力计划。最后,利用算例分析验证该模型的有效性。该文建立的模型无需对新能源出力不确定性建模,在完美调度策略的指导下,即可实现端到端的策略学习。该文算法离线训练时收敛迅速,在线应用时决策效率高,可为调度部门提供客观、有效的调度决策依据。 展开更多
关键词 动态经济调度 生成对抗网络 模仿学习 强化学习
下载PDF
书写机器人研究综述 被引量:8
19
作者 曾华琳 黄雨轩 +1 位作者 晁飞 周昌乐 《智能系统学报》 CSCD 北大核心 2016年第1期15-26,共12页
通过分析书写机器人所具有的特征与实现意义,明确了机器人书写能力需要机器人能够自主控制机械手,实现灵活和准确的动作,并且观察动态环境变化。论文从3个方面回顾和分析了当前书写机器人的研究。首先介绍并分析了书写机器人硬件结构的... 通过分析书写机器人所具有的特征与实现意义,明确了机器人书写能力需要机器人能够自主控制机械手,实现灵活和准确的动作,并且观察动态环境变化。论文从3个方面回顾和分析了当前书写机器人的研究。首先介绍并分析了书写机器人硬件结构的知识,其次回顾了现有的控制机器人书写动作的相关算法,之后介绍了机器人书写过程中汉字信息的获取方式。此外,讨论了书写机器人在控制方法和字体获取方法方面的优劣,并指出了书写机器人可以利用智能控制技术与模仿学习方法来提高书写质量。最后展望了书写机器人的规模化应用领域。 展开更多
关键词 机器人 书写机器人 机械手 动作控制 智能控制 模仿学习
下载PDF
逆向强化学习研究综述 被引量:1
20
作者 张立华 刘全 +1 位作者 黄志刚 朱斐 《软件学报》 EI CSCD 北大核心 2023年第10期4772-4803,共32页
逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家... 逆向强化学习(inverse reinforcement learning,IRL)也称为逆向最优控制(inverse optimal control,IOC),是强化学习和模仿学习领域的一种重要研究方法,该方法通过专家样本求解奖赏函数,并根据所得奖赏函数求解最优策略,以达到模仿专家策略的目的.近年来,逆向强化学习在模仿学习领域取得了丰富的研究成果,已广泛应用于汽车导航、路径推荐和机器人最优控制等问题中.首先介绍逆向强化学习理论基础,然后从奖赏函数构建方式出发,讨论分析基于线性奖赏函数和非线性奖赏函数的逆向强化学习算法,包括最大边际逆向强化学习算法、最大熵逆向强化学习算法、最大熵深度逆向强化学习算法和生成对抗模仿学习等.随后从逆向强化学习领域的前沿研究方向进行综述,比较和分析该领域代表性算法,包括状态动作信息不完全逆向强化学习、多智能体逆向强化学习、示范样本非最优逆向强化学习和指导逆向强化学习等.最后总结分析当前存在的关键问题,并从理论和应用方面探讨未来的发展方向. 展开更多
关键词 逆向强化学习 模仿学习 生成对抗模仿学习 逆向最优控制 强化学习
下载PDF
上一页 1 2 7 下一页 到第
使用帮助 返回顶部