期刊文献+
共找到95篇文章
< 1 2 5 >
每页显示 20 50 100
基于POMDP的不稳定心绞痛中西医结合治疗方案优化研究 被引量:14
1
作者 冯妍 徐浩 +2 位作者 刘凯 周雪忠 陈可冀 《中国中西医结合杂志》 CAS CSCD 北大核心 2013年第7期878-882,共5页
目的初步优化中西医结合防治不稳定心绞痛(unstable angina,UA)的综合治疗方案。方法基于部分可观察的马尔科夫决策过程模型(Partially Observable Markov Decision Process,POMDP)的方法,选择气虚、血瘀、痰浊3个主要证侯要素,对UA住... 目的初步优化中西医结合防治不稳定心绞痛(unstable angina,UA)的综合治疗方案。方法基于部分可观察的马尔科夫决策过程模型(Partially Observable Markov Decision Process,POMDP)的方法,选择气虚、血瘀、痰浊3个主要证侯要素,对UA住院患者的诊治情况进行深层次数据挖掘、分析,客观评价UA中西医结合的疗效。结果 UA气虚证、血瘀证、痰浊证患者的推荐治疗方案依次为:硝酸酯类+他汀类+氯吡格雷+血管紧张素Ⅱ受体阻滞剂+肝素类+黄芪+党参+茯苓+白术(ADR=0.85077869);硝酸酯类+阿司匹林+氯吡格雷+他汀类+肝素类+当归+红花+桃仁+赤芍(ADR=0.70773000);硝酸酯类+阿司匹林+他汀类+血管紧张素转换酶抑制剂+栝蒌+薤白+半夏+陈皮(ADR=0.72509600)。结论本研究基于POMDP优化了UA的治疗方案,可作为进一步规范和制定中西医结合治疗UA方案的参考。 展开更多
关键词 部分可观察马尔科夫决策过程 不稳定心绞痛 治疗方案优化
下载PDF
多平台主动与被动传感器协同跟踪的长时调度方法 被引量:13
2
作者 乔成林 单甘霖 +1 位作者 段修生 郭峰 《兵工学报》 EI CAS CSCD 北大核心 2019年第1期115-123,共9页
为了有效跟踪杂波环境下机动目标、降低系统辐射风险,提出一种多平台主动与被动传感器协同跟踪的长时调度方法。将长时调度问题构建为部分可观马尔可夫决策过程,采用交互式多模型概率数据关联算法更新目标信念状态,利用后验克拉美-罗下... 为了有效跟踪杂波环境下机动目标、降低系统辐射风险,提出一种多平台主动与被动传感器协同跟踪的长时调度方法。将长时调度问题构建为部分可观马尔可夫决策过程,采用交互式多模型概率数据关联算法更新目标信念状态,利用后验克拉美-罗下界预测机动目标长时跟踪精度,提出改进的维特比算法以求解最优调度序列。仿真实验结果表明,所提搜索算法能够显著降低搜索空间和存储空间,所提长时调度方法能够有效控制系统辐射代价、克服传感器频繁切换。 展开更多
关键词 传感器长时调度 部分可观马尔可夫决策过程 交互式多模型 概率数据关联 后验克拉美-罗下界 维特比算法
下载PDF
NIG-AP: a new method for automated penetration testing 被引量:10
3
作者 Tian-yang ZHOU Yi-chao ZANG +1 位作者 Jun-hu ZHU Qing-xian WANG 《Frontiers of Information Technology & Electronic Engineering》 SCIE EI CSCD 2019年第9期1277-1288,共12页
Penetration testing offers strong advantages in the discovery of hidden vulnerabilities in a network and assessing network security.However,it can be carried out by only security analysts,which costs considerable time... Penetration testing offers strong advantages in the discovery of hidden vulnerabilities in a network and assessing network security.However,it can be carried out by only security analysts,which costs considerable time and money.The natural way to deal with the above problem is automated penetration testing,the essential part of which is automated attack planning.Although previous studies have explored various ways to discover attack paths,all of them require perfect network information beforehand,which is contradictory to realistic penetration testing scenarios.To vividly mimic intruders to find all possible attack paths hidden in a network from the perspective of hackers,we propose a network information gain based automated attack planning(NIG-AP)algorithm to achieve autonomous attack path discovery.The algorithm formalizes penetration testing as a Markov decision process and uses network information to obtain the reward,which guides an agent to choose the best response actions to discover hidden attack paths from the intruder’s perspective.Experimental results reveal that the proposed algorithm demonstrates substantial improvement in training time and effectiveness when mining attack paths. 展开更多
关键词 PENETRATION testing REINFORCEMENT learning CLASSICAL planning partially observable markov decision process
原文传递
部分可观测马尔可夫决策过程算法综述 被引量:10
4
作者 桂林 武小悦 《系统工程与电子技术》 EI CSCD 北大核心 2008年第6期1058-1064,共7页
部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础... 部分可观测马尔可夫决策过程(POMDP)是马尔可夫决策过程(MDP)的扩展,它允许系统的状态信息部分可知。但POMDP的可能应用大部分没有实现,这主要是因为缺乏有效的算法。POMDP的算法分为近似算法和精确算法,精确算法是构造近似算法的基础。介绍了POMDP模型后,对离散时间、有限状态集的POMDP精确算法和近似算法进行了综述,分析了造成POMDP难以求解的主要原因,提出了进一步的研究方向。 展开更多
关键词 部分可观测马尔可夫决策过程 算法 综述
下载PDF
基于IMM的无人机在线路径规划决策建模 被引量:7
5
作者 杨啟明 徐建城 +1 位作者 田海宝 吴勇 《西北工业大学学报》 EI CAS CSCD 北大核心 2018年第2期323-331,共9页
为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状... 为提升无人机对目标的自主跟踪能力,以部分可观测马尔科夫决策过程(POMDP)为理论框架,建立起无人机路径在线规划POMDP模型。分析并描述了POMDP模型中的各个要素,针对目标运动规律的复杂性,引入交互多模型(IMM)方法描述POMDP模型中的状态转移规律,以适应目标的机动变化。同时以POMDP模型中的累加代价函数为目标函数,结合使用名义信念状态优化(NBO)算法求解无人机的行动策略,产生的行动策略控制无人机飞行。仿真结果表明,所建立的模型能够实现对无人机路径的自主规划,能够控制无人机对目标进行有效跟踪,规划的无人机路径较之使用单一的目标状态转移规律更加合理高效。 展开更多
关键词 部分可观测马尔科夫决策过程(POMDP) 交互多模型(IMM) 路径规划 目标跟踪 名义信念状态优化
下载PDF
面向空中目标威胁评估的多传感器管理方法 被引量:7
6
作者 张昀普 单甘霖 《航空学报》 EI CAS CSCD 北大核心 2019年第11期240-253,共14页
为了降低在空中目标威胁评估任务中由于威胁评估结果的不准确性和传感器辐射所带来的潜在损失,提出了一种基于风险的多传感器管理方法。首先,基于部分可观马尔可夫决策过程建立了传感器管理模型;然后,给出了基于信息状态的威胁评估风险... 为了降低在空中目标威胁评估任务中由于威胁评估结果的不准确性和传感器辐射所带来的潜在损失,提出了一种基于风险的多传感器管理方法。首先,基于部分可观马尔可夫决策过程建立了传感器管理模型;然后,给出了基于信息状态的威胁评估风险和传感器辐射风险的预测方法以量化潜在损失;接着,为获得更优的作战收益,以多步风险预测值为决策依据,以两种风险的加权和最小为优化目标建立了长期目标函数;最后,在求解目标函数时,将传感器管理问题转化为决策树搜索,设计了一种基于分支定界的标准代价搜索算法以快速获得高质量的管理方案。仿真实验表明,所提算法能够在搜索到高质量解的同时大幅减少计算时间和内存消耗;所提方法能够对风险进行准确预测,且相比于经典的传感器管理方法,所提方法具有更好的风险控制效果。 展开更多
关键词 传感器管理 威胁评估 风险控制 部分可观马尔可夫决策过程 决策树搜索
原文传递
基于MASAC强化学习算法的多无人机协同路径规划 被引量:1
7
作者 方城亮 杨飞生 潘泉 《中国科学:信息科学》 CSCD 北大核心 2024年第8期1871-1883,共13页
针对动态不确定环境下异构多无人机协同路径规划问题,提出了一种新的多智能体深度强化学习算法.首先,开发了一个空域场景下多无人机到达目标地点的强化学习环境,环境引入了无人机动力学方程,并考虑了无人机异构的因素以及安全避障的需求... 针对动态不确定环境下异构多无人机协同路径规划问题,提出了一种新的多智能体深度强化学习算法.首先,开发了一个空域场景下多无人机到达目标地点的强化学习环境,环境引入了无人机动力学方程,并考虑了无人机异构的因素以及安全避障的需求.其次,设计了任务完成率、编队保持率、飞行时间等性能指标,用以衡量算法的优劣.然后,将多无人机协同路径规划问题建模为部分可观Markov决策过程,提出了一种多智能体柔性执行评价(multi-agent soft actorcritic,MASAC)算法寻求该问题的近似最优策略.最后,通过仿真实验验证了所提算法的有效性和优越性. 展开更多
关键词 多无人机 路径规划 多智能体深度强化学习 部分可观markov决策过程 MASAC算法
原文传递
基于高斯混合多目标滤波器的传感器控制策略 被引量:5
8
作者 陈辉 贺忠良 +1 位作者 连峰 黎慧波 《电子学报》 EI CAS CSCD 北大核心 2019年第3期521-530,共10页
本文基于随机有限集的高斯混合多目标滤波器(Gaussian Mixture Multi-Target Filter,GM-MTF)提出几种传感器控制策略.首先,基于容积卡尔曼高斯混合多目标非线性滤波器,借助两个高斯分布之间的巴氏距离,推导GM-MTF的整体信息增益,并以此... 本文基于随机有限集的高斯混合多目标滤波器(Gaussian Mixture Multi-Target Filter,GM-MTF)提出几种传感器控制策略.首先,基于容积卡尔曼高斯混合多目标非线性滤波器,借助两个高斯分布之间的巴氏距离,推导GM-MTF的整体信息增益,并以此为基础提出相应的传感器控制策略.另外,设计高斯粒子的联合采样方法对多目标滤波器的预测高斯分量进行采样,用一组带权值的粒子去近似多目标统计特性,利用理想量测集对粒子的权值进行更新,继而研究利用Rényi散度作为评价函数,提出一种适应性更好的传感器控制策略.最后,给出基于目标势的后验期望(Posterior Expected Number of Targets,PENT)评价的高斯混合实现过程.仿真实验验证了提出算法的有效性. 展开更多
关键词 传感器控制 多目标跟踪 高斯混合 有限集统计 部分可观测马尔可夫决策过程
下载PDF
基于决策不确定性的多目标跟踪传感器管理 被引量:5
9
作者 田晨 裴扬 +1 位作者 侯鹏 赵倩 《航空学报》 EI CAS CSCD 北大核心 2020年第10期262-275,共14页
针对高杂波、电子干扰环境,在量测驱动的多目标滤波框架下提出了一种基于决策不确定性的传感器管理方法。首先,根据部分可观测马尔科夫决策过程的理论,给出了基于Rényi信息增量的传感器管理一般方法。其次,综合考虑决策过程的信息... 针对高杂波、电子干扰环境,在量测驱动的多目标滤波框架下提出了一种基于决策不确定性的传感器管理方法。首先,根据部分可观测马尔科夫决策过程的理论,给出了基于Rényi信息增量的传感器管理一般方法。其次,综合考虑决策过程的信息完整性、信息质量、信息的内涵等因素,在量测驱动的自适应滤波框架下,基于目标运动态势评估多目标决策不确定性水平,并选取最大决策不确定性目标。最后,以最大决策不确定性目标的信息增量最大化为准则进行传感器分配方案的求解。仿真实验表明所提方法能够有效抑制电子干扰、杂波对多目标跟踪及传感器分配的影响,与基于威胁的传感器管理方法相比,所提方法的平均最优子模式分配(OSPA)距离及平均计算时长均显著降低,且在高杂波、电子干扰情形下具有较高的可靠性。 展开更多
关键词 传感器管理 多目标跟踪 战术重要性标绘 量测驱动 部分可观马尔科夫决策过程
原文传递
认知Ad Hoc网络能量有效频谱接入策略 被引量:5
10
作者 张凯 刘洋 +1 位作者 赵彪 李鸥 《信号处理》 CSCD 北大核心 2013年第7期896-904,共9页
针对认知无线Ad Hoc网络中次用户能量受限问题,提出一种基于能量有效性的机会频谱接入策略。联合考虑信道状态的时变性和次用户的频谱感知准确性,基于部分可观测马尔科夫决策过程(POMDP)建立了一种最大化能量有效性的分析架构,指导次用... 针对认知无线Ad Hoc网络中次用户能量受限问题,提出一种基于能量有效性的机会频谱接入策略。联合考虑信道状态的时变性和次用户的频谱感知准确性,基于部分可观测马尔科夫决策过程(POMDP)建立了一种最大化能量有效性的分析架构,指导次用户选择能效最佳信道,并根据信念状态、信道增益和检测概率,自适应控制传输功率。仿真结果表明,该策略能够有效提高次用户传输的能量有效性,通过对传输功率的有效控制,实现了传输性能和能量开销的有效折中。 展开更多
关键词 认知无线电 机会频谱接入 能量有效性 部分可观测马尔科夫决策过程 传输功率控制
下载PDF
无线传感网跟踪任务中的目标运动模型估计与节点调度 被引量:4
11
作者 王祺尧 冯辉 +1 位作者 胡波 罗灵兵 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2019年第2期221-230,共10页
在无线传感器网络进行目标跟踪的过程中,合理的节点调度算法可以兼顾跟踪精度和能量消耗,延长网络的使用寿命.然而,当目标运动模型未知时,难以实现高效的节点调度.为解决目标运动模型未知场景下的跟踪问题,本文将监控区域中的目标移动... 在无线传感器网络进行目标跟踪的过程中,合理的节点调度算法可以兼顾跟踪精度和能量消耗,延长网络的使用寿命.然而,当目标运动模型未知时,难以实现高效的节点调度.为解决目标运动模型未知场景下的跟踪问题,本文将监控区域中的目标移动和传感器观测建模为隐马尔可夫模型(HMM),并提出了HMMQMDP算法,把问题分解为运动模型估计和节点调度两个阶段:运动模型估计阶段是根据传感器采集的观测序列估计目标状态转移概率;节点调度阶段则被建模为部分可观测马尔可夫决策过程(POMDP),综合考虑决策的短期和长期损失,应用QMDP算法近似求解优化策略.仿真结果表明:该算法可以根据观测样本有效地学习和估计目标运动模型,提升节点调度算法的效果. 展开更多
关键词 无线传感器网络 运动模型估计 节点调度 隐马尔可夫模型 部分可观测马尔科夫决策过程
下载PDF
基于深度注意力Q网络的机器人路径规划研究
12
作者 马海杰 薛安虎 《传感器与微系统》 CSCD 北大核心 2024年第12期66-70,75,共6页
针对传统机器人路径规划算法在部分可观测环境中收敛速度慢、准确率低的问题,提出基于深度注意力Q网络(DAQN)的机器人路径规划方法。首先,为克服传统深度Q网络(DQN)在处理部分可观测马尔科夫决策过程(POMDP)时由于缺乏记忆单元而导致的... 针对传统机器人路径规划算法在部分可观测环境中收敛速度慢、准确率低的问题,提出基于深度注意力Q网络(DAQN)的机器人路径规划方法。首先,为克服传统深度Q网络(DQN)在处理部分可观测马尔科夫决策过程(POMDP)时由于缺乏记忆单元而导致的局限性,提出融合注意力机制的改进DQN算法,充分利用和挖掘包含历史数据的感知信息;其次,基于人工势场(APF)法,设计机器人移动距离和方向的奖励机制,提升路径规划的准确性;最后,在二维栅格地图仿真环境下验证DAQN算法的有效性。结果表明:DAQN算法在部分可观测环境中的路径规划表现显著优于其他算法,该算法能够在复杂环境中实现更加优越的路径规划效果。 展开更多
关键词 机器人 路径规划 部分可观测马尔可夫决策过程 深度强化学习 注意力机制
下载PDF
考虑综合性能最优的非短视快速天基雷达多目标跟踪资源调度算法
13
作者 王增福 杨广宇 金术玲 《雷达学报(中英文)》 EI CSCD 北大核心 2024年第1期253-269,共17页
合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基... 合理有效的资源调度是天基雷达效能得以充分发挥的关键。针对天基雷达多目标跟踪资源调度问题,建立了综合考虑目标威胁度、跟踪精度与低截获概率(LPI)的代价函数;考虑目标的不确定、天基平台约束以及长远期期望代价,建立了多约束下的基于部分可观测的马尔可夫决策过程(POMDP)的资源调度模型;采用拉格朗日松弛法将多约束下的多目标跟踪资源调度问题转换分解为多个无约束的子问题;针对连续状态空间、连续动作空间及连续观测空间引起的维数灾难问题,采用基于蒙特卡罗树搜索(MCTS)的在线POMDP算法—POMCPOW算法进行求解,最终提出了一种综合多指标性能的非短视快速天基雷达多目标跟踪资源调度算法。仿真表明,与已有调度算法相比,所提算法资源分配更合理,系统性能更优。 展开更多
关键词 天基雷达 资源调度 多目标跟踪 部分可观测的马尔可夫决策过程 蒙特卡罗树搜索(MCTS)
下载PDF
异构密集网络下基于POMDP负载感知的负载均衡算法研究 被引量:4
14
作者 唐伦 梁荣 +1 位作者 张亚 陈前斌 《电子与信息学报》 EI CSCD 北大核心 2017年第9期2134-2140,共7页
针对异构密集网络场景中业务不确定性而引起的网络负载不均衡,该文提出一种基于部分可测马尔科夫决策过程(POMDP)负载感知的负载均衡方法。该方法首先通过对系统用户在感知周期内数据包传输数量进行观察,预测出下一周期系统可能出现的... 针对异构密集网络场景中业务不确定性而引起的网络负载不均衡,该文提出一种基于部分可测马尔科夫决策过程(POMDP)负载感知的负载均衡方法。该方法首先通过对系统用户在感知周期内数据包传输数量进行观察,预测出下一周期系统可能出现的负载状态。其次根据负载感知结果动态调整小区范围扩展偏置值(DCRE),以达到优化系统整体负载均衡性的目的。最后采用启发式算法近似求解,能够快速得到次优解。仿真结果表明,该方案能在异构密集网络下提高系统负载均衡性,同时提升了系统吞吐量与系统资源利用率。 展开更多
关键词 异构密集网络 负载均衡 小区范围扩展 部分可测马尔科夫决策过程
下载PDF
室内环境下基于边际约束的快速路径自主探索算法 被引量:3
15
作者 徐晓苏 梁紫依 +1 位作者 杨博 王迪 《中国惯性技术学报》 EI CSCD 北大核心 2019年第4期474-480,共7页
为了提高移动机器人在室内未知环境的自主探索能力,实现移动机器人在探索目标点之间的安全、快速移动,提出一种基于边际约束的快速路径自主探索算法。首先,将机器人自主探索问题描述为部分可观测马尔可夫决策过程模型。之后,在传统的快... 为了提高移动机器人在室内未知环境的自主探索能力,实现移动机器人在探索目标点之间的安全、快速移动,提出一种基于边际约束的快速路径自主探索算法。首先,将机器人自主探索问题描述为部分可观测马尔可夫决策过程模型。之后,在传统的快速扩展随机树(RRT)算法基础上,将随机树的生长空间划分为边际四象限空间,结合启发式评估函数的评价。该算法加快了移动机器人在探索目标点之间的移动速度,同时减少了随机树的节点,降低了对内存空间的占用。通过Matlab仿真实验,在实验设定的仿真环境中,该算法比传统RRT算法在时间上缩短约了75%,节点数量减少了约80%,并在机器人操作系统的仿真实验中验证了算法的实用性。 展开更多
关键词 移动机器人 自主探索 部分可观测马尔可夫决策过程 快速扩展随机树 边际约束
下载PDF
基于Dec-POMDP的认知无线电网络频谱接入算法 被引量:3
16
作者 张迎晓 杨涛 +1 位作者 胡波 陈光梦 《信息与电子工程》 2010年第6期720-725,共6页
针对认知无线电网络中认知用户(CR)的机会频谱感知及接入问题,提出了一种基于分布式部分可观测马尔科夫决策过程(Dec-POMDP)的多用户频谱接入算法。在该模型框架下,相邻CR用户通过交换接入策略,以区域策略梯度方向为基准,对各个CR用户... 针对认知无线电网络中认知用户(CR)的机会频谱感知及接入问题,提出了一种基于分布式部分可观测马尔科夫决策过程(Dec-POMDP)的多用户频谱接入算法。在该模型框架下,相邻CR用户通过交换接入策略,以区域策略梯度方向为基准,对各个CR用户的接入策略做出调整,从而得到最优联合接入策略。仿真结果表明:该算法有效降低了授权用户的容量损失,提高了空闲频谱的利用效率,能够更有效地做出接入决策。 展开更多
关键词 认知无线电 可观测马尔科夫决策过程 策略梯度 频谱分配
下载PDF
异构无线传感器网络中基于POMDP的实时调度算法 被引量:2
17
作者 冯延蓬 仵博 郑红燕 《仪表技术与传感器》 CSCD 北大核心 2012年第8期101-104,共4页
针对异构无线传感器网络节点性能存在差异和易受环境影响的特点,提出一种基于部分可观察Markov决策过程(partially observable markov decision process,POMDP)的实时休眠调度算法,使用状态转移函数和观察函数表示系统完成用户请求任务... 针对异构无线传感器网络节点性能存在差异和易受环境影响的特点,提出一种基于部分可观察Markov决策过程(partially observable markov decision process,POMDP)的实时休眠调度算法,使用状态转移函数和观察函数表示系统完成用户请求任务中存在的环境噪声和传输冲突等不确定性,使用回报函数表示采用不同调度策略对异构网络感知准确度和能量消耗的影响,采用基于当前信念点的在线求解算法求取最优策略。仿真结果表明:该算法能够平衡数据准确性与能量消耗,延长网络生存时间。 展开更多
关键词 异构无线传感器网络 部分可观察markov决策过程 调度
下载PDF
Analysis of a POMDP Model for an Optimal Maintenance Problem with Multiple Imperfect Repairs
18
作者 Nobuyuki Tamura 《American Journal of Operations Research》 2023年第6期133-146,共14页
I consider a system whose deterioration follows a discrete-time and discrete-state Markov chain with an absorbing state. When the system is put into practice, I may select operation (wait), imperfect repair, or replac... I consider a system whose deterioration follows a discrete-time and discrete-state Markov chain with an absorbing state. When the system is put into practice, I may select operation (wait), imperfect repair, or replacement at each discrete-time point. The true state of the system is not known when it is operated. Instead, the system is monitored after operation and some incomplete information concerned with the deterioration is obtained for decision making. Since there are multiple imperfect repairs, I can select one option from them when the imperfect repair is preferable to operation and replacement. To express this situation, I propose a POMDP model and theoretically investigate the structure of an optimal maintenance policy minimizing a total expected discounted cost for an unbounded horizon. Then two stochastic orders are used for the analysis of our problem. 展开更多
关键词 partially observable markov decision process Imperfect Repair Stochastic Order Monotone Property Optimal Maintenance Policy
下载PDF
基于多臂赌博机在线学习的频谱共享方法 被引量:2
19
作者 张娟 蒋和松 《计算机工程与设计》 CSCD 北大核心 2014年第7期2515-2519,共5页
针对频谱共享中信道状态建模为完全知识马尔科夫时,应用受限的问题,提出了不同信道下基于信道感知的在线学习。根据授权用户是否存在于当前信道来选择激进发送或保守发送,由于保守发送时,信道状态是不可观测的,因此将信道模型建模为部... 针对频谱共享中信道状态建模为完全知识马尔科夫时,应用受限的问题,提出了不同信道下基于信道感知的在线学习。根据授权用户是否存在于当前信道来选择激进发送或保守发送,由于保守发送时,信道状态是不可观测的,因此将信道模型建模为部分可观测马尔科夫决策过程。将信道未知情况下的最优传输策略建模为多臂赌博机模型。仿真结果表明,在信道不完全可知情况下的多臂赌博机在线学习算法能获得最优K步策略,并通过UCB-TUNED方法改善了最优传输的K步保守策略的收敛性。 展开更多
关键词 频谱共享 多臂赌博机 在线学习 部分可观察的马尔科夫 最优传输
下载PDF
基于POMDP的单用户认知移动边缘计算资源分配 被引量:2
20
作者 刘伯阳 马杰 +1 位作者 李伟 万奕尧 《西安邮电大学学报》 2021年第4期26-33,共8页
对移动边缘计算网络用户数量巨大、频谱稀缺的问题,提出一种由一个次用户、多个主用户与一个无线接入点构成的认知边缘计算网络中的计算资源分配方案。次用户通过频谱感知对主用户状态进行感知,利用强化学习中的部分可观测马尔科夫决策... 对移动边缘计算网络用户数量巨大、频谱稀缺的问题,提出一种由一个次用户、多个主用户与一个无线接入点构成的认知边缘计算网络中的计算资源分配方案。次用户通过频谱感知对主用户状态进行感知,利用强化学习中的部分可观测马尔科夫决策过程(Partially Observable Markov Decision Process,POMDP)对次用户的计算能耗、操作模式、CPU计算频率和任务卸载功率进行联合优化,最大化次用户能获得的长期期望计算量。仿真结果表明,所提方案与只考虑单个时隙的方案相比,在获得的长期期望计算量方面显著提高,能有效缓解移动边缘计算网络中的频谱稀缺问题。 展开更多
关键词 移动边缘计算 认知无线电 部分可观测马尔科夫决策过程 频谱感知
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部