-
题名基于逆强化学习的示教学习方法综述
被引量:10
- 1
-
-
作者
张凯峰
俞扬
-
机构
计算机软件新技术国家重点实验室(南京大学)
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2019年第2期254-261,共8页
-
基金
江苏省自然科学基金项目(BK20160066)~~
-
文摘
随着强化学习在自动机器人控制、复杂决策问题上的广泛应用,强化学习逐渐成为机器学习领域中的一大研究热点.传统强化学习算法是一种通过不断与所处环境进行自主交互并从中得到策略的学习方式.然而,大多数多步决策问题难以给出传统强化学习所需要的反馈信号.这逐渐成为强化学习在更多复杂问题中实现应用的瓶颈.逆强化学习是基于专家决策轨迹最优的假设,在马尔可夫决策过程中逆向求解反馈函数的一类算法.目前,通过将逆强化学习和传统正向强化学习相结合设计的一类示教学习算法已经在机器人控制等领域取得了一系列成果.对强化学习、逆强化学习以及示教学习方法做一定介绍,此外还介绍了逆强化学习在应用过程中所需要解决的问题以及基于逆强化学习的示教学习方法.
-
关键词
强化学习
示教学习
逆强化学习
马尔可夫决策过程
多步决策问题
-
Keywords
reinforcement learning
imitation learning
inverse reinforcement learning
Markov decision process
multi-step decision problem
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名用MATHEMATICA求解商人渡河问题
被引量:4
- 2
-
-
作者
储理才
-
机构
集美大学理学院
-
出处
《大学数学》
北大核心
2005年第3期117-122,共6页
-
文摘
提出了一种求解商人渡河问题的算法,并给出了用数学软件MATHEMATICA实现该算法的源代码,列出了部分计算结果供进一步研究.该算法可以应用于求解更一般的多步决策问题.
-
关键词
商人渡河问题
数学模型
多步决策问题
MATHEMATICA
-
Keywords
the problem of the businessmen crossing river
mathematical model
multi-step decision-making problems
mathematica
-
分类号
O244
[理学—计算数学]
-
-
题名商人渡河问题的算法实现
被引量:1
- 3
-
-
作者
邵建峰
许丙胜
-
机构
南京工业大学理学院
-
出处
《数学的实践与认识》
CSCD
北大核心
2012年第19期137-144,共8页
-
基金
国家级教学研究项目"科学思维
科学方法在高校数学课程教学创新中的应用与实践"(数学-4)
南京工业大学数学基础平台项目资助
-
文摘
"商人渡河问题"是一个传统的智力游戏问题,常常是作为数学模型、数据结构与智能算法分析等学科中很重要的教学或实验案例被引用.其求解算法尚未得到很好的解决,问题解的存在性等还缺少一般性和明确的结论.将首先从算法实现方面对这个问题进行深入地探讨.设计出思想方法较简单的、能在Matlab中编程实现的算法,且算法能求出问题的全部最少步数解.此外还报告了该类问题在各种情形下有趣的计算结果.
-
关键词
商人渡河问题
数学模型
多步决策问题
智能算法
-
Keywords
The problem of businessmen crossing river
mathematical model
muti-step decision problem
inteligence algorithm
-
分类号
O242.1
[理学—计算数学]
-
-
题名商人渡河问题的有解性分析
- 4
-
-
作者
邵建峰
邵硕
-
机构
南京工业大学理学院
麦克马斯特大学工学院
-
出处
《数学的实践与认识》
CSCD
北大核心
2012年第20期139-146,共8页
-
基金
国家级教学研究项目“科学思维、科学方法在高校数学课程教学创新中的应用与实践”(数学-4)
南京工业大学数学基础平台项目资助
-
文摘
"商人渡河问题"是一个传统的智力游戏问题,常常作为数学模型、数据结构与智能算法分析等学科中很重要的教学与实验案例被引用.其求解算法尚未得到很好的解决,尤其是问题解的存在性等还缺少一般性和明确的结论.对此,将主要从理论上探讨该类问题何时有解的一般性结论,并给出严格的数学证明.同时还将讨论渡船上安全策略的不同选择对问题求解的影响.
-
关键词
商人渡河问题
数学模型
多步决策问题
智能算法
-
Keywords
the problem of businessmen crossing river
mathematical model
muti-stepdecision problem
intelligence alogorithm
-
分类号
O141.4
[理学—数学]
-