期刊文献+
共找到6,141篇文章
< 1 2 250 >
每页显示 20 50 100
深度强化学习综述 被引量:456
1
作者 刘全 翟建伟 +4 位作者 章宗长 钟珊 周倩 章鹏 徐进 《计算机学报》 EI CSCD 北大核心 2018年第1期1-27,共27页
深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策... 深度强化学习是人工智能领域的一个新的研究热点.它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制.自提出以来,在许多需要感知高维度原始输入数据和决策控制的任务中,深度强化学习方法已经取得了实质性的突破.该文首先阐述了三类主要的深度强化学习方法,包括基于值函数的深度强化学习、基于策略梯度的深度强化学习和基于搜索与监督的深度强化学习;其次对深度强化学习领域的一些前沿研究方向进行了综述,包括分层深度强化学习、多任务迁移深度强化学习、多智能体深度强化学习、基于记忆与推理的深度强化学习等.最后总结了深度强化学习在若干领域的成功应用和未来发展趋势. 展开更多
关键词 人工智能 深度学习 强化学习 深度强化学习
下载PDF
强化学习研究综述 被引量:263
2
作者 高阳 陈世福 陆鑫 《自动化学报》 EI CSCD 北大核心 2004年第1期86-100,共15页
强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.该文首先介绍强化学习的原理和结构;其次构造一个二维分类图,分别在马尔可夫环境和非马尔可夫环境下讨论最优搜索型和经验强化... 强化学习通过试错与环境交互获得策略的改进,其自学习和在线学习的特点使其成为机器学习研究的一个重要分支.该文首先介绍强化学习的原理和结构;其次构造一个二维分类图,分别在马尔可夫环境和非马尔可夫环境下讨论最优搜索型和经验强化型两类算法;然后结合近年来的研究综述了强化学习技术的核心问题,包括部分感知、函数估计、多agent强化学习,以及偏差技术;最后还简要介绍强化学习的应用情况和未来的发展方向. 展开更多
关键词 机器学习 强化学习 马尔可夫环境 函数估计 偏差技术
下载PDF
自适应蚁群算法 被引量:150
3
作者 张纪会 高齐圣 徐心和 《控制理论与应用》 EI CAS CSCD 北大核心 2000年第1期1-3,8,共4页
蚁群算法是由意大利学者M .Dorigo等人首先提出的一种新型的模拟进化算法 ,初步的研究已经表明该算法具有许多优良的性质 ,为求解算杂的组合优化问题提供了一种新思路 .此方法已经引起了众多学者的研究兴趣 .但同时也存在着一些缺点 ,... 蚁群算法是由意大利学者M .Dorigo等人首先提出的一种新型的模拟进化算法 ,初步的研究已经表明该算法具有许多优良的性质 ,为求解算杂的组合优化问题提供了一种新思路 .此方法已经引起了众多学者的研究兴趣 .但同时也存在着一些缺点 ,如需要较长的计算时间 ,容易出现停滞现象等 .目前国内对此研究尚少 ,为此 ,本文对蚁群算法的研究现状作一综述 ,希望能够对相关研究起到一定的启发作用 . 展开更多
关键词 蚁群算法 强化学习 旅行商问题 组合优化问题
下载PDF
强化学习理论、算法及应用 被引量:92
4
作者 张汝波 顾国昌 +1 位作者 刘照德 王醒策 《控制理论与应用》 EI CAS CSCD 北大核心 2000年第5期637-642,共6页
强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然... 强化学习 (reinforcementlearning)一词来自于行为心理学 ,这一理论把行为学习看成是反复试验的过程 ,从而把环境状态映射成相应的动作 .首先全面地介绍了强化学习理论的主要算法 ,即瞬时差分法、Q 学习算法及自适应启发评价算法 ;然后介绍了强化学习的应用情况 ; 展开更多
关键词 强化学习 学习理论 学习算法 机器学习 智能控制
下载PDF
基于值函数和策略梯度的深度强化学习综述 被引量:127
5
作者 刘建伟 高峰 罗雄麟 《计算机学报》 EI CSCD 北大核心 2019年第6期1406-1438,共33页
作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注.目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略,深度强化学习通过不断优... 作为人工智能领域的热门研究问题,深度强化学习自提出以来,就受到人们越来越多的关注.目前,深度强化学习能够解决很多以前难以解决的问题,比如直接从原始像素中学习如何玩视频游戏和针对机器人问题学习控制策略,深度强化学习通过不断优化控制策略,建立一个对视觉世界有更高层次理解的自治系统.其中,基于值函数和策略梯度的深度强化学习是核心的基础方法和研究重点.该文对这两类深度强化学习方法进行了系统的阐述和总结,包括用到的求解算法和网络结构.首先,本文概述了基于值函数的深度强化学习方法,包括开山鼻祖深度Q网络和基于深度Q网络的各种改进方法.然后介绍了策略梯度的概念和常见算法,并概述了深度确定性策略梯度、信赖域策略优化和异步优势行动者-评论家这三种基于策略梯度的深度强化学习方法及相应的一些改进方法.接着概述了深度强化学习前沿成果阿尔法狗和阿尔法元,并分析了后者和该文概述的两种深度强化学习方法的联系.最后对深度强化学习的未来研究方向进行了展望. 展开更多
关键词 深度学习 强化学习 深度强化学习 值函数 策略梯度 机器学习
下载PDF
深度学习的目标跟踪算法综述 被引量:106
6
作者 李玺 查宇飞 +5 位作者 张天柱 崔振 左旺孟 侯志强 卢湖川 王菡子 《中国图象图形学报》 CSCD 北大核心 2019年第12期2057-2080,共24页
目标跟踪是利用一个视频或图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标运动状态进行预测并标定目标位置的一种技术,是计算机视觉的一个重要基础问题,具有重要的理论研究意义和应用价值,在智能视频监控系统、智能... 目标跟踪是利用一个视频或图像序列的上下文信息,对目标的外观和运动信息进行建模,从而对目标运动状态进行预测并标定目标位置的一种技术,是计算机视觉的一个重要基础问题,具有重要的理论研究意义和应用价值,在智能视频监控系统、智能人机交互、智能交通和视觉导航系统等方面具有广泛应用。大数据时代的到来及深度学习方法的出现,为目标跟踪的研究提供了新的契机。本文首先阐述了目标跟踪的基本研究框架,从观测模型的角度对现有目标跟踪的历史进行回顾,指出深度学习为获得更为鲁棒的观测模型提供了可能;进而从深度判别模型、深度生成式模型等方面介绍了适用于目标跟踪的深度学习方法;从网络结构、功能划分和网络训练等几个角度对目前的深度目标跟踪方法进行分类并深入地阐述和分析了当前的深度目标跟踪方法;然后,补充介绍了其他一些深度目标跟踪方法,包括基于分类与回归融合的深度目标跟踪方法、基于强化学习的深度目标跟踪方法、基于集成学习的深度目标跟踪方法和基于元学习的深度目标跟踪方法等;之后,介绍了目前主要的适用于深度目标跟踪的数据库及其评测方法;接下来从移动端跟踪系统,基于检测与跟踪的系统等方面深入分析与总结了目标跟踪中的最新具体应用情况,最后对深度学习方法在目标跟踪中存在的训练数据不足、实时跟踪和长程跟踪等问题进行分析,并对未来的发展方向进行了展望。 展开更多
关键词 视觉目标跟踪 深度神经网络 相关滤波器 深度孪生网络 强化学习 生成对抗网络
原文传递
生成式人工智能与法律的六大议题:以ChatGPT为例 被引量:94
7
作者 於兴中 郑戈 丁晓东 《中国法律评论》 2023年第2期1-20,共20页
ChatGPT是一种自然语言处理机器学习模型,是一种人工智能。它使用第三代生成式预训练变换模型(GPT-3)来生成类似人类撰写的文本,从简单的聊天对话到编写软件代码、生成文案和论文。ChatGPT采用基于人类反馈的强化学习(RLHF)优化了在与... ChatGPT是一种自然语言处理机器学习模型,是一种人工智能。它使用第三代生成式预训练变换模型(GPT-3)来生成类似人类撰写的文本,从简单的聊天对话到编写软件代码、生成文案和论文。ChatGPT采用基于人类反馈的强化学习(RLHF)优化了在与真人对话时充分考虑上下文和语境的能力,在很多时候可以以假乱真,让使用者觉得是在跟真人对话。由于其性能远超过去的所有聊天软件和语音助手,所以自2022年11月公测之后,引发了全球的广泛关注,已经成为一种现象级的应用。目前,各大网络平台尤其是搜索引擎,都将ChatGPT或类似的大型语言模型(LLM)作为全力研发的重点,比如谷歌(Google)和必应(Bing)已经着手将大型语言模型内嵌于搜索引擎之中,使搜索变得更加智能化、互动化和语境化,这必将给互联网生态带来新一轮革命性的冲击。鉴于此,《中国法律评论》特邀中国澳门大学法学院於兴中教授、上海交通大学凯原法学院郑戈教授和中国人民大学法学院丁晓东教授,从法律角度深入讨论如何应对ChatGPT带来的挑战,包括其对法律职业的冲击,对法律思维的替代,在法律场景的应用,对知识产权和创新的保护,对平等问题和文化多样性问题的影响,以及对算法歧视的应对,等等。希望法律界、科技界和产业界共同努力,构建一个打破界别、突破知识领域的共同体,引导人工智能向有利于人类福祉的方向发展。 展开更多
关键词 人工智能 自然语言处理 搜索引擎 强化学习 变换模型 聊天软件 上海交通大学 语言模型
原文传递
新一代人工智能技术在电力系统调度运行中的应用评述 被引量:91
8
作者 赵晋泉 夏雪 +2 位作者 徐春雷 胡伟 尚学伟 《电力系统自动化》 EI CSCD 北大核心 2020年第24期1-10,共10页
以深度学习、强化学习为代表的新一代人工智能技术及其应用是当前电力系统领域的研究热点。人工智能技术具有不依赖物理机理,计算速度快,辨别效率高等优点。但人工智能固有的可解释性差、稳定性弱等缺点也制约了其在电力系统一些场景的... 以深度学习、强化学习为代表的新一代人工智能技术及其应用是当前电力系统领域的研究热点。人工智能技术具有不依赖物理机理,计算速度快,辨别效率高等优点。但人工智能固有的可解释性差、稳定性弱等缺点也制约了其在电力系统一些场景的应用。文中梳理了新一代人工智能技术在电力系统负荷和新能源预测、故障诊断、在线稳定性评估、频率及电压优化控制和电网运行方式制定等调度运行场景中的应用,并进行了分析和评述。总结了现有研究中存在的问题,指出人工智能技术的应用应当以问题为导向,以场景为基础,以应用为目的。最后,对未来人工智能技术在电力系统调度运行中的应用作出了展望。 展开更多
关键词 人工智能 电力系统 调度运行 深度学习 强化学习 场景适配
下载PDF
多智能体深度强化学习的若干关键科学问题 被引量:82
9
作者 孙长银 穆朝絮 《自动化学报》 EI CSCD 北大核心 2020年第7期1301-1312,共12页
强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史,但强化学习方法在处理高维变量问题时常常会面临巨大挑战.近年来,深度学习迅猛发展,使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的... 强化学习作为一种用于解决无模型序列决策问题的方法已经有数十年的历史,但强化学习方法在处理高维变量问题时常常会面临巨大挑战.近年来,深度学习迅猛发展,使得强化学习方法为复杂高维的多智能体系统提供优化的决策策略、在充满挑战的环境中高效执行目标任务成为可能.本文综述了强化学习和深度强化学习方法的原理,提出学习系统的闭环控制框架,分析了多智能体深度强化学习中存在的若干重要问题和解决方法,包括多智能体强化学习的算法结构、环境非静态和部分可观性等问题,对所调查方法的优缺点和相关应用进行分析和讨论.最后提供多智能体深度强化学习未来的研究方向,为开发更强大、更易应用的多智能体强化学习控制系统提供一些思路. 展开更多
关键词 强化学习 深度强化学习 多智能体 学习系统 智能控制 决策优化
下载PDF
空天地一体化网络技术:探索与展望 被引量:72
10
作者 沈学民 承楠 +5 位作者 周海波 吕丰 权伟 时伟森 吴华清 周淙浩 《物联网学报》 2020年第3期3-19,共17页
随着信息技术的不断发展,信息服务的空间范畴不断扩大,各种天基、空基、海基、地基网络服务不断涌现,对多维综合信息资源的需求也逐步提升。空天地一体化网络可以为陆海空天用户提供无缝信息服务,满足未来网络对全时全域全空通信和网络... 随着信息技术的不断发展,信息服务的空间范畴不断扩大,各种天基、空基、海基、地基网络服务不断涌现,对多维综合信息资源的需求也逐步提升。空天地一体化网络可以为陆海空天用户提供无缝信息服务,满足未来网络对全时全域全空通信和网络互联互通的需求。首先,对空天地一体化网络技术及协议体系的发展趋势进行了分析,探讨了低轨卫星通信系统以及空地网络融合的研究进展。针对网络结构复杂、动态性高、资源高度约束等问题,提出了基于强化学习(RL,reinforcement learning)的空天地一体化网络设计与优化框架,以进行高效快速的网络设计、分析、优化与管控。同时给出了实例分析,阐明了利用深度强化学习(DRL,deep RL)进行空天地一体化网络智能接入选择的方法。并通过搭建空天地一体化网络仿真平台,解决了网络观测稀疏与训练数据难以获取的问题,极大地提升了RL的训练效率。最后,对空天地一体化网络中的潜在研究方向进行了探讨。 展开更多
关键词 空天地一体化网络 强化学习 低轨卫星星座 仿真平台 车联网
下载PDF
网络入侵检测技术综述 被引量:71
11
作者 蹇诗婕 卢志刚 +2 位作者 杜丹 姜波 刘宝旭 《信息安全学报》 CSCD 2020年第4期96-122,共27页
随着互联网时代的发展,内部威胁、零日漏洞和DoS攻击等攻击行为日益增加,网络安全变得越来越重要,入侵检测已成为网络攻击检测的一种重要手段。随着机器学习算法的发展,研究人员提出了大量的入侵检测技术。本文对这些研究进行了综述。首... 随着互联网时代的发展,内部威胁、零日漏洞和DoS攻击等攻击行为日益增加,网络安全变得越来越重要,入侵检测已成为网络攻击检测的一种重要手段。随着机器学习算法的发展,研究人员提出了大量的入侵检测技术。本文对这些研究进行了综述。首先,简要介绍了当前的网络安全形势,并给出了入侵检测技术及系统在各个领域的应用。然后,从数据来源、检测技术和检测性能三个方面对入侵检测相关技术和系统进行已有研究工作的总结与评价,其中,检测技术重点论述了传统机器学习、深度学习、强化学习、可视化分析技术等方法。最后,讨论了当前研究中出现的问题并展望该技术的未来发展方向和前景。本文希望能为该领域的研究人员提供一些有益的思考。 展开更多
关键词 网络空间安全 入侵检测 机器学习 深度学习 强化学习 可视化分析
下载PDF
移动机器人的智能路径规划算法综述 被引量:68
12
作者 王春颖 刘平 秦洪政 《传感器与微系统》 CSCD 2018年第8期5-8,共4页
针对目前移动机器人路径规划所处的的环境复杂度高、随机性强等情况,难以有效地实现最优路径规划的问题,从移动机器人的实际应用出发,对点对点路径规划和遍历路径规划、全局路径规划和局部路径规划进行综述,对各类规划方法进行分析与归... 针对目前移动机器人路径规划所处的的环境复杂度高、随机性强等情况,难以有效地实现最优路径规划的问题,从移动机器人的实际应用出发,对点对点路径规划和遍历路径规划、全局路径规划和局部路径规划进行综述,对各类规划方法进行分析与归纳;重点分析强化学习算法的路径规划技术;针对目前路径规划算法存在的问题,提出类脑智能算法应用于路径规划的探索,同时给出路径规划在农业装备应用的新思路。 展开更多
关键词 移动机器人 路径规划 强化学习 类脑智能
下载PDF
多智能体深度强化学习研究综述 被引量:65
13
作者 孙彧 曹雷 +2 位作者 陈希亮 徐志雄 赖俊 《计算机工程与应用》 CSCD 北大核心 2020年第5期13-24,共12页
多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。对多智能体深度强化... 多智能体深度强化学习是机器学习领域的一个新兴的研究热点和应用方向,涵盖众多算法、规则、框架,并广泛应用于自动驾驶、能源分配、编队控制、航迹规划、路由规划、社会难题等现实领域,具有极高的研究价值和意义。对多智能体深度强化学习的基本理论、发展历程进行简要的概念介绍;按照无关联型、通信规则型、互相合作型和建模学习型4种分类方式阐述了现有的经典算法;对多智能体深度强化学习算法的实际应用进行了综述,并简单罗列了多智能体深度强化学习的现有测试平台;总结了多智能体深度强化学习在理论、算法和应用方面面临的挑战和未来的发展方向。 展开更多
关键词 强化学习 深度学习 多智能体系统 多智能体深度强化学习
下载PDF
基于深度强化学习的综合能源系统动态经济调度 被引量:65
14
作者 杨挺 赵黎媛 +2 位作者 刘亚闯 冯少康 盆海波 《电力系统自动化》 EI CSCD 北大核心 2021年第5期39-47,共9页
综合能源系统的优化调度对于实现系统的多能互补和经济运行具有重要意义。然而,系统中可再生能源的间歇性以及用户用能需求的不确定性造成了系统中供需双方的随机波动,传统的调度方法难以准确地适应实际环境的动态变化。针对这一问题,... 综合能源系统的优化调度对于实现系统的多能互补和经济运行具有重要意义。然而,系统中可再生能源的间歇性以及用户用能需求的不确定性造成了系统中供需双方的随机波动,传统的调度方法难以准确地适应实际环境的动态变化。针对这一问题,提出了一种考虑可再生能源和负荷时变特性的综合能源系统动态经济调度方法。首先对综合能源系统动态经济调度问题进行数学描述,然后将该调度决策问题表述为强化学习框架,定义了系统的观测状态、调度动作和奖励函数,继而采用深度确定性策略梯度算法进行连续状态和动作空间下的动态调度决策。所提方法不需要对不确定性进行预测或建模,能够动态地对源和荷的随机波动做出响应。最后通过算例仿真验证了所提方法的有效性。 展开更多
关键词 综合能源系统 动态经济调度 强化学习 深度确定性策略梯度
下载PDF
一种动态环境下移动机器人的路径规划方法 被引量:41
15
作者 朴松昊 洪炳熔 《机器人》 EI CSCD 北大核心 2003年第1期18-21,43,共5页
本文提出了在动态环境中 ,移动机器人的一种路径规划方法 ,适用于环境中存在已知和未知、静止和运动障碍物的复杂情况 .采用链接图法建立了机器人工作空间模型 ,整个系统由全局路径规划器和局部路径规划器两部分组成 .在全局路径规划器... 本文提出了在动态环境中 ,移动机器人的一种路径规划方法 ,适用于环境中存在已知和未知、静止和运动障碍物的复杂情况 .采用链接图法建立了机器人工作空间模型 ,整个系统由全局路径规划器和局部路径规划器两部分组成 .在全局路径规划器中 ,应用遗传算法规划出初步全局优化路径 .在局部路径规划器中 ,设计了三种基本行为 :跟踪全局路径的行为、避碰的行为和目标制导的行为 ,采用基于行为的方法进一步优化路径 .其中 ,避碰的行为是通过强化学习得到的 .仿真和实验结果表明所提方法简便可行 。 展开更多
关键词 动态环境 移动机器人 路径规划 遗传算法 强化学习
下载PDF
强化学习研究综述 被引量:60
16
作者 陈学松 杨宜民 《计算机应用研究》 CSCD 北大核心 2010年第8期2834-2838,2844,共6页
在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。介绍了强化学习在理论、算法和应用研究三个方面最新的研究成... 在未知环境中,关于agent的学习行为是一个既充满挑战又有趣的问题,强化学习通过试探与环境交互获得策略的改进,其学习和在线学习的特点使其成为机器学习研究的一个重要分支。介绍了强化学习在理论、算法和应用研究三个方面最新的研究成果,首先介绍了强化学习的环境模型和其基本要素;其次介绍了强化学习算法的收敛性和泛化有关的理论研究问题;然后结合最近几年的研究成果,综述了折扣型回报指标和平均回报指标强化学习算法;最后列举了强化学习在非线性控制、机器人控制、人工智能问题求解、多agent系统问题等若干领域的成功应用和未来的发展方向。 展开更多
关键词 强化学习 多智能体 马尔可夫决策过程
下载PDF
基于Markov对策的多Agent强化学习模型及算法研究 被引量:30
17
作者 高阳 周志华 +1 位作者 何佳洲 陈世福 《计算机研究与发展》 EI CSCD 北大核心 2000年第3期257-263,共7页
在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学... 在MDP中,单Agent可以通过强化学习来寻找问题的最优解.但在多Agent系统中,MDP模型不再适用.同样极小极大Q算法只能解决采用零和对策模型的MAS学习问题.文中采用非零和Markov对策作为多Agent系统学习框架,并提出元对策强化学习的学习模型和元对策Q算法.理论证明元对策Q算法收敛在非零和Markov对策的元对策最优解. 展开更多
关键词 元对策 强化学习 多AGENT系统 人工智能
下载PDF
高分辨率遥感影像解译中的机器学习范式 被引量:50
18
作者 周培诚 程塨 +1 位作者 姚西文 韩军伟 《遥感学报》 EI CSCD 北大核心 2021年第1期182-197,共16页
高分辨率遥感影像解译是遥感信息处理领域的研究热点之一,在遥感大数据知识挖掘与智能化分析中起着至关重要的作用,具有重要的民用和军事应用价值。传统的高分辨率遥感影像解译通常采用人工目视解译方式,费时费力且精度低。所以,如何自... 高分辨率遥感影像解译是遥感信息处理领域的研究热点之一,在遥感大数据知识挖掘与智能化分析中起着至关重要的作用,具有重要的民用和军事应用价值。传统的高分辨率遥感影像解译通常采用人工目视解译方式,费时费力且精度低。所以,如何自动、高效地实现高分辨率遥感影像解译是亟待解决的问题。近年来,随着人工智能技术的飞速发展,采用机器学习方法实现高分辨率遥感影像解译已成为主流的研究方向。本文结合高分辨率遥感影像解译的典型任务,如目标检测、场景分类、语义分割、高光谱图像分类等,系统综述了5种代表性的机器学习范式。具体来说,本文分别介绍了不同机器学习范式的定义、常用方法以及代表性应用,包括全监督学习(如支持向量机、K-最近邻、决策树、随机森林、概率图模型)、半监督学习(如纯半监督学习、直推学习、主动学习)、弱监督学习(如多示例学习)、无监督学习(如聚类、主成分分析、稀疏表达)和深度学习(如堆栈自编码机、深度信念网络、卷积神经网络、生成对抗网络)。其次,深入分析五种机器学习范式的优缺点,并总结了它们在遥感影像解译中的典型应用。最后,展望了高分辨率遥感影像解译的机器学习发展方向,如小样本学习、无监督深度学习、强化学习等。 展开更多
关键词 遥感影像解译 机器学习范式 深度学习 弱监督学习 小样本学习 强化学习
原文传递
深度强化学习研究综述 被引量:48
19
作者 杨思明 单征 +1 位作者 丁煜 李刚伟 《计算机工程》 CAS CSCD 北大核心 2021年第12期19-29,共11页
深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究... 深度强化学习是指利用深度神经网络的特征表示能力对强化学习的状态、动作、价值等函数进行拟合,以提升强化学习模型性能,广泛应用于电子游戏、机械控制、推荐系统、金融投资等领域。回顾深度强化学习方法的主要发展历程,根据当前研究目标对深度强化学习方法进行分类,分析与讨论高维状态动作空间任务上的算法收敛、复杂应用场景下的算法样本效率提高、奖励函数稀疏或无明确定义情况下的算法探索以及多任务场景下的算法泛化性能增强问题,总结与归纳4类深度强化学习方法的研究现状,同时针对深度强化学习技术的未来发展方向进行展望。 展开更多
关键词 深度学习 强化学习 深度强化学习 逆向强化学习 基于模型的元学习
下载PDF
多智能体强化学习综述 被引量:48
20
作者 杜威 丁世飞 《计算机科学》 CSCD 北大核心 2019年第8期1-8,共8页
多智能体系统是一种分布式计算技术,可用于解决各种领域的问题,包括机器人系统、分布式决策、交通控制和商业管理等。多智能体强化学习是多智能体系统研究领域中的一个重要分支,它将强化学习技术、博弈论等应用到多智能体系统,使得多个... 多智能体系统是一种分布式计算技术,可用于解决各种领域的问题,包括机器人系统、分布式决策、交通控制和商业管理等。多智能体强化学习是多智能体系统研究领域中的一个重要分支,它将强化学习技术、博弈论等应用到多智能体系统,使得多个智能体能在更高维且动态的真实场景中通过交互和决策完成更错综复杂的任务。文中综述了多智能体强化学习的最新研究进展与发展动态,首先介绍了多智能体强化学习的基础理论背景,回顾了文献中提出的多智能体强化学习的学习目标和经典算法,其被分别应用于完全合作、完全竞争和更一般(不合作也不竞争)的任务。其次,综述了多智能体强化学习的最新进展,近年来随着深度学习技术的成熟,在越来越多的复杂现实场景任务中,研究人员利用深度学习技术来自动学习海量输入数据的抽象特征,并以此来优化强化学习问题中智能体的决策。近期,研究人员结合深度学习等技术,从可扩展性、智能体意图、奖励机制、环境框架等不同方面对算法进行了改进和创新。最后,对多智能体强化学习的应用前景和发展趋势进行了总结与展望。目前多智能体强化学习在机器人系统、人机博弈、自动驾驶等领域取得了不错的进展,未来将被更广泛地应用于资源管理、交通系统、医疗、金融等各个领域。 展开更多
关键词 强化学习 多智能体系统 博弈论 多智能体强化学习 深度学习
下载PDF
上一页 1 2 250 下一页 到第
使用帮助 返回顶部