期刊文献+
共找到184篇文章
< 1 2 10 >
每页显示 20 50 100
电网调度系统网络安全态势感知研究 被引量:43
1
作者 刘红军 管荑 +1 位作者 刘勇 耿玉杰 《电测与仪表》 北大核心 2019年第17期69-75,共7页
电网调度系统网络安全常采用基于边界保护的物理隔离,此方式无法有效抵抗高级病毒软件的入侵。基于此,构建了基于Q学习算法的网络状态转移算法,预测网络攻击可能的最佳路径。改进了网络安全度量标准,在系统损失、攻击成本、防御成本的... 电网调度系统网络安全常采用基于边界保护的物理隔离,此方式无法有效抵抗高级病毒软件的入侵。基于此,构建了基于Q学习算法的网络状态转移算法,预测网络攻击可能的最佳路径。改进了网络安全度量标准,在系统损失、攻击成本、防御成本的基础上,引入防御回报、网络状态转移成本,以静态经济收益作为网络状态转移的判断准则。应用演化博弈理论构建复制动态方程,动态再现攻防双方的对抗行为,计算经济收益动态变化,预测攻击行为的变化,确定最佳防御策略。仿真结果表明基于Q学习算法与演化博弈理论的电网调度网络安全态势感知方案能够有效识别网络攻击的可能路径以及带来的最大威胁,有助于调度人员作出有效决策。 展开更多
关键词 态势感知 网络状态转移 q学习算法 演化博弈 调度
下载PDF
一种可信的自适应服务组合机制 被引量:20
2
作者 郭慧鹏 怀进鹏 +1 位作者 邓婷 李扬 《计算机学报》 EI CSCD 北大核心 2008年第8期1434-1444,共11页
提出一种可信的自适应服务组合机制.首先,将组合服务的可信性保证问题转换为自适应控制问题,可信性保证策略作为可调节控制器,组合服务作为被控对象,并设计了相应的系统结构;其次,在马尔可夫决策过程框架下建模和优化组合服务的可信维... 提出一种可信的自适应服务组合机制.首先,将组合服务的可信性保证问题转换为自适应控制问题,可信性保证策略作为可调节控制器,组合服务作为被控对象,并设计了相应的系统结构;其次,在马尔可夫决策过程框架下建模和优化组合服务的可信维护过程和策略,并设计了相应的算法,实现了基于强化学习的直接自适应控制机制;最后,通过仿真实验,将组合服务的自适应维护与随机维护策略比较,表明组合服务的自适应维护具有明显的优越性. 展开更多
关键词 服务组合 可信性 自适应控制 强化学习 q学习算法
下载PDF
多AGV的路径规划与任务调度研究 被引量:9
3
作者 于会群 王意乐 黄贻海 《上海电力大学学报》 CAS 2022年第1期89-93,97,共6页
自动化分拣仓储包含大量的分拣任务,需要多个自动导引车(AGV)来辅助人工完成快速分拣任务。为了提高效率,在保障AGV电量的前提下,以AGV完成任务的空载时间与AGV的空置率为优化目标,对多AGV的碰撞进行了冲突分析,并通过改进的Q learning... 自动化分拣仓储包含大量的分拣任务,需要多个自动导引车(AGV)来辅助人工完成快速分拣任务。为了提高效率,在保障AGV电量的前提下,以AGV完成任务的空载时间与AGV的空置率为优化目标,对多AGV的碰撞进行了冲突分析,并通过改进的Q learning算法来生成AGV的无冲突搬运路径;为了完成多AGV路径和调度综合优化,提出了一种改进遗传算法,算法采用精英保留和轮盘赌的方式选择个体,运用自适应的交叉和变异算子来进行进化操作。最后,通过仿真验证了算法的有效性。 展开更多
关键词 多AGV 路径规划与任务调度 q learning算法 改进遗传算法
下载PDF
农业采摘机械手路径规划——基于云平台和Q学习算法 被引量:7
4
作者 司国斌 王春霞 《农机化研究》 北大核心 2021年第10期23-27,共5页
首先,分析了Q学习算法在采摘机械手路径规划问题中的应用,介绍了云平台的工作模式,以利用其对路径规划进行计算;然后,设计了农业采摘机械手控制系统,实现了基于Q学习算法的采摘机械手路径规划。实验结果表明:采摘机械手成功避开了环境... 首先,分析了Q学习算法在采摘机械手路径规划问题中的应用,介绍了云平台的工作模式,以利用其对路径规划进行计算;然后,设计了农业采摘机械手控制系统,实现了基于Q学习算法的采摘机械手路径规划。实验结果表明:采摘机械手成功避开了环境中的障碍物,且整个运动曲线路径偏差较小,充分证实了该系统的优越性。 展开更多
关键词 采摘机器人 机械手 路径规划 云平台 q学习算法
下载PDF
一种军棋机器博弈的多棋子协同博弈方法 被引量:5
5
作者 张小川 王宛宛 彭丽蓉 《智能系统学报》 CSCD 北大核心 2020年第2期399-404,共6页
针对在军棋博弈不完全信息对弈中,面对棋子不同价值、不同位置、不同搭配所产生的不同棋力,传统的单子意图搜索算法,不能满足棋子之间的协同性与沟通性,同时也缺乏对敌方的引诱与欺骗等高级对抗能力。本文提出一种结合UCT搜索策略的高... 针对在军棋博弈不完全信息对弈中,面对棋子不同价值、不同位置、不同搭配所产生的不同棋力,传统的单子意图搜索算法,不能满足棋子之间的协同性与沟通性,同时也缺乏对敌方的引诱与欺骗等高级对抗能力。本文提出一种结合UCT搜索策略的高价值棋子博弈方法,实现高价值棋子协同博弈的策略。实战经验表明:高价值多棋子军棋协同博弈策略优于单棋子军棋博弈策略。 展开更多
关键词 机器博弈 军棋 协同博弈 q学习算法 攻守平衡 维度灾难 UCT 高价值棋子
下载PDF
基于仿生学内在动机的Q学习算法移动机器人路径规划研究 被引量:5
6
作者 李福进 张俊琴 任红格 《现代电子技术》 北大核心 2019年第17期133-137,共5页
针对移动机器人在未知环境中避障和路径规划自适应能力差的问题,受心理学方面内在动机启发,以加入引力势场的Q学习理论为基础,提出一种基于内在动机机制的引力场Q( IM GPF Q)学习算法。该算法以Q学习为理论框架,加入引力势场为算法提供... 针对移动机器人在未知环境中避障和路径规划自适应能力差的问题,受心理学方面内在动机启发,以加入引力势场的Q学习理论为基础,提出一种基于内在动机机制的引力场Q( IM GPF Q)学习算法。该算法以Q学习为理论框架,加入引力势场为算法提供先验知识,以内在动机作为内部奖励,与外部信号一起生成取向评价值,指引机器人学会自主选择最优路径。通过模拟客厅环境和两种具有陷阱的环境中进行的仿真实验,结果表明该算法能使机器人通过与外界未知环境进行交互获得认知,最终完成路径规划任务,与传统强化学习方法相比具有更快的收敛速度以及更好的自学习和自适应能力。 展开更多
关键词 移动机器人 路径规划 内在动机 q学习算法 引力势场 智能发育
下载PDF
共享经验的多主体强化学习研究 被引量:4
7
作者 焦殿科 石川 《计算机工程》 CAS CSCD 北大核心 2008年第11期219-221,共3页
合作多主体强化学习的关键问题在于如何提高强化学习的学习效率。在追捕问题的基础上,该文提出一种共享经验的多主体强化学习方法。通过建立合适的状态空间使猎人共享学习经验,根据追捕问题的对称性压缩状态空间。实验结果表明,共享状... 合作多主体强化学习的关键问题在于如何提高强化学习的学习效率。在追捕问题的基础上,该文提出一种共享经验的多主体强化学习方法。通过建立合适的状态空间使猎人共享学习经验,根据追捕问题的对称性压缩状态空间。实验结果表明,共享状态空间能够加快多主体强化学习的过程,状态空间越小,Q学习算法收敛越快。 展开更多
关键词 合作多主体 强化学习 q学习算法 状态空间
下载PDF
采用Q学习的软件定义网络抗毁技术分析 被引量:3
8
作者 王炜发 张大明 +2 位作者 代毅 柯峰 冯穗力 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2022年第4期65-72,共8页
针对软件定义网络(SDN)的链路抗毁问题,为使数据传输具有更好的稳健性,设计了一个基于Q学习算法的抗毁策略。该策略选择以网络中每条链路的中断概率为衡量指标,通过Q学习算法,根据网络情况寻找一条中断概率低的路径作为备份路径,从而在... 针对软件定义网络(SDN)的链路抗毁问题,为使数据传输具有更好的稳健性,设计了一个基于Q学习算法的抗毁策略。该策略选择以网络中每条链路的中断概率为衡量指标,通过Q学习算法,根据网络情况寻找一条中断概率低的路径作为备份路径,从而在网络传输出现故障时能够自动地切换为备份路径,实现抗毁性能的改善。将Q学习算法与现有的算法进行对比,并分析了各自的优劣性。实验仿真结果表明,相比于蚁群算法,Q学习算法的平均吞吐量可提高15%左右,网络传输的平均中断概率可降低38%;相比于最短路径算法(有备份),平均吞吐量提高16.5%,网络传输的平均中断概率降低43%。由此可见,文中所提基于Q学习的抗毁技术可大大提升SDN网络的抗毁性能。 展开更多
关键词 软件定义网络 q学习算法 抗毁 链路
下载PDF
基于学习理论的含光储联合系统的输电网双层规划 被引量:3
9
作者 孙东磊 赵龙 +3 位作者 秦敬涛 韩学山 杨明 王明强 《山东大学学报(工学版)》 CAS CSCD 北大核心 2020年第4期90-97,共8页
针对传统输电网规划中对光伏出力不确定性处理中存在的问题,提出一种基于学习理论的含光储联合系统的输电网双层规划模型。下层基于学习理论对光储联合系统进行优化,目标为光伏电站长期运行收益最大与计划功率不确定性最小。将下层优化... 针对传统输电网规划中对光伏出力不确定性处理中存在的问题,提出一种基于学习理论的含光储联合系统的输电网双层规划模型。下层基于学习理论对光储联合系统进行优化,目标为光伏电站长期运行收益最大与计划功率不确定性最小。将下层优化求解得到的光储联合系统计划功率代入上层的输电网规划模型,以线路投资成本、运行成本和弃光成本最小为目标进行规划。最后用改进的IEEE118节点算例验证了光储联合系统可以减小计划功率的不确定性,提高规划结果的可信度。本研究建立的Q学习控制器具有良好的在线学习能力,通过大量数据的学习后能对光储联合系统的计划出力进行有效的指导。 展开更多
关键词 学习理论 q学习算法 输电网规划 光储联合系统 不确定性
原文传递
基于用户反馈的智能合作过滤模型的研究 被引量:3
10
作者 柯佳 程显毅 李晓薇 《智能系统学报》 2007年第1期59-63,共5页
为了提供给用户更准确的信息,提出基于用户反馈的智能合作过滤模型和一种基于用户兴趣的动态Q学习算法,并建立用户兴趣模型.通过隐式反馈和显式反馈这2种反馈方式更新用户模型并实现合作过滤.实验结果表明,在输入相同查询提问情况下ACF... 为了提供给用户更准确的信息,提出基于用户反馈的智能合作过滤模型和一种基于用户兴趣的动态Q学习算法,并建立用户兴趣模型.通过隐式反馈和显式反馈这2种反馈方式更新用户模型并实现合作过滤.实验结果表明,在输入相同查询提问情况下ACFM在预测用户兴趣的效果和推荐搜索信息的查全率和查准率方面比传统的搜索引擎有明显改善. 展开更多
关键词 合作过滤 AGENT 用户兴趣 q学习
下载PDF
面向气象观测设备的移动边缘计算卸载算法 被引量:1
11
作者 尤嘉铖 《信息技术》 2022年第3期78-83,共6页
针对自动气象观测设备计算任务数据量大、存在时延等问题,文中开展了面向自动气象观测设备的移动边缘计算卸载算法的研究。首先,采用内点法对单服务器设备集群的时间延迟优化模型和能量消耗优化模型进行数据建模;其次,利用Lyapunov优化... 针对自动气象观测设备计算任务数据量大、存在时延等问题,文中开展了面向自动气象观测设备的移动边缘计算卸载算法的研究。首先,采用内点法对单服务器设备集群的时间延迟优化模型和能量消耗优化模型进行数据建模;其次,利用Lyapunov优化算法改善系统内的数据积压现象,并进行多服务器设备集群计算卸载算法的研究,从而实现时间延迟与能量消耗两个目标的联合优化;同时,使用Q学习算法完成了未有网络先验知识以及能量状态情况下最优卸载策略的求解。经过实验测试结果表明,文中所提方案将时间延迟与能量消耗均分别降低了23.2%和3.5%。 展开更多
关键词 移动边缘计算 计算卸载算法 自动气象观测设备 Lyapunov优化算法 q学习算法
下载PDF
基于Q学习算法的再生制动能量回收控制策略 被引量:2
12
作者 马什鹏 尹燕莉 +2 位作者 张刘锋 马永娟 黄学江 《汽车工程师》 2021年第5期52-55,共4页
针对前轴驱动混合动力汽车再生制动过程中电液制动力矩分配问题,提出基于Q学习算法的再生制动能量回收控制策略。文章以制动能量回收效率最大为优化目标,通过Q学习算法优化得到制动力矩分配系数,从而对前后轮机械摩擦制动力和再生制动... 针对前轴驱动混合动力汽车再生制动过程中电液制动力矩分配问题,提出基于Q学习算法的再生制动能量回收控制策略。文章以制动能量回收效率最大为优化目标,通过Q学习算法优化得到制动力矩分配系数,从而对前后轮机械摩擦制动力和再生制动力进行分配。并基于MATLAB/Simulink软件进行仿真验证,结果表明:与理想制动力分配策略相比,制动能量回收效率提升了6.5%。提出的控制策略能够在保证制动安全的前提下,进一步提高了制动能量回收效率,对于制动能量回收的研究具有重要意义。 展开更多
关键词 再生制动 q学习算法 制动力矩分配
下载PDF
基于Q学习的纯电动重型商用车智能换挡控制策略研究 被引量:2
13
作者 尹燕莉 张刘锋 +2 位作者 周亚伟 王瑞鑫 马什鹏 《重庆理工大学学报(自然科学)》 北大核心 2021年第9期73-82,共10页
为了同时兼顾换挡策略的全局最优性与在线实时性,提出了基于Q学习算法的智能综合换挡策略。根据马尔科夫理论,构建需求功率转移概率模型。以电能消耗与加速度量纲归一化最大为加权目标,建立综合性能换挡策略优化模型。运用Q学习算法,得... 为了同时兼顾换挡策略的全局最优性与在线实时性,提出了基于Q学习算法的智能综合换挡策略。根据马尔科夫理论,构建需求功率转移概率模型。以电能消耗与加速度量纲归一化最大为加权目标,建立综合性能换挡策略优化模型。运用Q学习算法,得到不同车速下的需求功率、SOC、速比三者关系的MAP图,从而制定出整车智能综合换挡策略。基于AVL/Cruise仿真平台,选取C-WTVC为循环工况,进行综合性能仿真分析。结果表明:与传统综合换挡策略相比,基于Q学习算法的智能综合换挡策略,整车0~50 km/h的加速时间缩短了4.6%,整车的能量消耗率降低了5.3%,说明该换挡控制策略能够有效地改善整车的动力性与经济性。 展开更多
关键词 纯电动重型商用车 动力性 经济性 智能综合换挡策略 q学习算法
下载PDF
基于强化学习的频谱决策与传输算法 被引量:1
14
作者 江虹 伍春 刘勇 《系统仿真学报》 CAS CSCD 北大核心 2013年第3期565-570,共6页
在认知无线电(CR)通信中,各信道可能具有不同的带宽、干扰强度和主用户冲突概率,如何据自身业务特性选择最佳信道和传输策略是系统设计的关键问题之一。提出一种基于Q学习的在线学习算法,用于解决多用户多信道CR系统中的信道选择与自适... 在认知无线电(CR)通信中,各信道可能具有不同的带宽、干扰强度和主用户冲突概率,如何据自身业务特性选择最佳信道和传输策略是系统设计的关键问题之一。提出一种基于Q学习的在线学习算法,用于解决多用户多信道CR系统中的信道选择与自适应传输问题。在不知道信道状态信息和主用户业务特性情况下,通过在线学习,获得各种环境下的最佳频谱选择与自适应传输策略。为验证所提方法的有效性,采用随机频谱选择算法和最小干扰频谱选择算法与所提方法进行比较。仿真结果表明,提出的方法通过在线学习实现了认知无线电的自适应控制,能够有效增加认知无线电的通信性能。 展开更多
关键词 认知无线电 频谱决策 q学习算法 自适应传输
下载PDF
基于Q Learning算法的区域配网业务路由分配方法研究
15
作者 赵志军 金军 《计算技术与自动化》 2021年第1期104-108,共5页
传统的配网业务路由分配方法的链条占用率过高,导致丢包率较大。为此,设计了基于Q Learning算法的区域配网业务路由分配方法。按照传统分类方式划分业务路由中的性能指标,根据路由约束条件计算指标的约束值,从而确定业务路由的最优传输... 传统的配网业务路由分配方法的链条占用率过高,导致丢包率较大。为此,设计了基于Q Learning算法的区域配网业务路由分配方法。按照传统分类方式划分业务路由中的性能指标,根据路由约束条件计算指标的约束值,从而确定业务路由的最优传输路径。结合Bellman Equation方法不断计算并更新配网中的Q值,再综合节点和网络业务指标,利用Q Learning算法计算得到区域配网中的风险均衡度。不断变换VNFs的路由顺序将其转换为TSP路由问题,最终得到路由分配矩阵,实现区域配网业务路由的分配。实验结果表明:与传统分配方法相比,基于Q Learning算法的分配方法的链条占用率低,有效减小了业务数据转发过程的丢包率。 展开更多
关键词 q learning算法 业务路由 Bellman Equation方法 最优传输路径 风险均衡度 路由分配
下载PDF
基于强化学习的网络时延自动化控制数学建模研究
16
作者 荆荣丽 葛书荣 +1 位作者 王鹏 宁玉文 《自动化与仪器仪表》 2020年第3期57-59,共3页
传统的网络时延控制模型在分析时延原因时,仅从宏观角度分析,缺少建立网络模型的过程,导致时延控制能力差、数据传输时间长、丢包率大的问题。为解决此问题,设计一种基于强化学习的网络时延自动化控制模型。该模型的构建主要分为两部分... 传统的网络时延控制模型在分析时延原因时,仅从宏观角度分析,缺少建立网络模型的过程,导致时延控制能力差、数据传输时间长、丢包率大的问题。为解决此问题,设计一种基于强化学习的网络时延自动化控制模型。该模型的构建主要分为两部分,先是确定网络模型,具体分析网络时延出现的原因,在此基础上,利用强化学习中的Q学习算法构建自动化控制模型,以解决网络时延问题。实验结果表明:与传统的基于均衡调度的网络时延控制模型相比,该模型对网络时延的控制性能更好,且数据包传输时间缩短3.7 s,数据包丢包率降低5%,应用优势明显。 展开更多
关键词 强化学习 网络时延 自动化控制 q学习算法
原文传递
WSN中融合Q学习和时隙ALOHA的MAC协议
17
作者 陈思 翟岩 张治斌 《控制工程》 CSCD 北大核心 2018年第9期1765-1770,共6页
能耗和延迟是无线传感器网络(WSN)中的介质访问控制(MAC)协议的主要问题,为此在现有时隙ALOHA协议的基础上,提出一种融合Q学习算法的新型MAC协议:QS-ALOHA。设定每个节点在帧中的每个时隙上,都有一个独立的Q值。根据传输结果,利用... 能耗和延迟是无线传感器网络(WSN)中的介质访问控制(MAC)协议的主要问题,为此在现有时隙ALOHA协议的基础上,提出一种融合Q学习算法的新型MAC协议:QS-ALOHA。设定每个节点在帧中的每个时隙上,都有一个独立的Q值。根据传输结果,利用Q学习算法进行更新,并将具有高Q值的时隙优先选择来传输数据,以此减小网络中的传输冲突和数据重发。另外,提出了一种马尔可夫模型,证明了协议中学习过程的收敛性。仿真结果表明,该协议在能量效率、延迟和吞吐量方面具有优越的性能。 展开更多
关键词 无线传感器网络 介质访问控制 q学习算法 时隙ALOHA协议
下载PDF
仓储物流机器人集群避障及协同路径规划方法 被引量:17
18
作者 陈明智 钱同惠 +1 位作者 张仕臻 王嘉前 《现代电子技术》 北大核心 2019年第22期174-177,182,共5页
基于智能机器人的智能仓储系统为解决因电子商务兴起带来的仓储物流压力提供了有效的方案。而机器人集群的避障及路径规划问题是智能仓储系统能否正常运行以及提升其运行效率的关键所在。该文创新地提出一种在交通规则和预约表约束下的... 基于智能机器人的智能仓储系统为解决因电子商务兴起带来的仓储物流压力提供了有效的方案。而机器人集群的避障及路径规划问题是智能仓储系统能否正常运行以及提升其运行效率的关键所在。该文创新地提出一种在交通规则和预约表约束下的基于改进Q Learning算法的仓储物流机器人集群避障及协同路径规划方法。通过改进的Q Learning算法规划出每个机器人完成任务目标的最短路径并形成预约表,利用交通规则和预约表解决仓储物流机器人集群在运行时发生的碰撞和死锁问题,并根据所设定的协同机制,减少机器人无任务的待机状态,平衡各机器人之间的工作量,最终实现在保证系统安全运行的基础上缩短系统运行时间的目的。通过Matlab对该文所设计的算法进行仿真,以系统无碰撞完成所有任务的运行总时间即系统中最后一个完成任务的机器人无碰撞运行的总步数为评价指标,验证了该方法的有效性。 展开更多
关键词 智能仓储 机器人集群 交通规则 预约表 改进q learning算法 协同路径规划
下载PDF
基于改进Q学习算法的低压电力线通信组网及维护方法 被引量:11
19
作者 崔莹 刘晓胜 徐殿国 《电力系统自动化》 EI CSCD 北大核心 2019年第24期111-118,共8页
为提高组网稳定性,选取合适的低压电力线通信(LVPLC)拓扑控制方法至关重要。针对现阶段组网方法不具备自学习能力使得对动态变化的拓扑反应能力相对滞后导致网络不稳定的问题,提出一种适用于LVPLC局域网多约束的改进Q学习算法。该算法... 为提高组网稳定性,选取合适的低压电力线通信(LVPLC)拓扑控制方法至关重要。针对现阶段组网方法不具备自学习能力使得对动态变化的拓扑反应能力相对滞后导致网络不稳定的问题,提出一种适用于LVPLC局域网多约束的改进Q学习算法。该算法基于绑定载波侦听多址接入协议,将非对称信道组网系统建模为离散Markov决策过程。通过与未知环境的不断交互,关联注册节点信息,建立路由表,经周期性地在线学习训练,节点选择较优的转发方向,优化以网关为树根的簇树;周期性地轮换代理,维护并更新骨干簇树网的逻辑拓扑,延长网络生命周期,保证组网的稳定性。仿真结果验证了该算法的有效性与泛化能力。 展开更多
关键词 能源互联网 低压电力线载波通信 接入控制 IEEE 1901标准 改进q学习算法
下载PDF
基于改进Q学习的可重入混合流水车间绿色动态调度 被引量:4
20
作者 吴秀丽 闫晓燕 《机械工程学报》 EI CAS CSCD 北大核心 2023年第13期246-259,共14页
节能减排对于实现可持续发展具有重要意义。考虑了动态扰动事件对生产的影响,研究了可重入混合流水车间绿色动态调度问题,提出了改进的Q学习算法。在可重入混合流水车间中,将各个加工阶段抽象为智能体,搭建了多智能体强化学习模型。选... 节能减排对于实现可持续发展具有重要意义。考虑了动态扰动事件对生产的影响,研究了可重入混合流水车间绿色动态调度问题,提出了改进的Q学习算法。在可重入混合流水车间中,将各个加工阶段抽象为智能体,搭建了多智能体强化学习模型。选用均值漂移算法对历史状态进行聚类。为实现全局优化,设计了经验共享策略实现各个智能体之间的经验交互,并设计了自适应贪婪策略选取动作。最后进行了数值实验,实验结果表明,在求解可重入混合流水车间绿色动态调度问题时,改进的Q学习算法优于单一的调度规则,可以在提高生产效率的同时保证较低的能耗,并且能够对实际生产环境中的动态扰动因素快速做出反应,能够有效地解决实际问题。 展开更多
关键词 节能减排 可重入混合流水车间 绿色动态调度 改进的q学习算法
原文传递
上一页 1 2 10 下一页 到第
使用帮助 返回顶部