基于强化学习的方法,提出一种无线多媒体通信网适应带宽配置在线优化算法,在满足多类业务不同QoS(quality of service)要求的同时,提高网络资源的利用率.建立事件驱动的随机切换分析模型,将无线多媒体通信网中的适应带宽配置问题转化为...基于强化学习的方法,提出一种无线多媒体通信网适应带宽配置在线优化算法,在满足多类业务不同QoS(quality of service)要求的同时,提高网络资源的利用率.建立事件驱动的随机切换分析模型,将无线多媒体通信网中的适应带宽配置问题转化为带约束的连续时间Markov决策问题.利用此模型的动态结构特性,结合在线学习估计梯度与随机逼近改进策略,提出适应带宽配置在线优化算法.该算法不依赖于系统参数,如呼叫到达率、呼叫持续时间等,自适应性强,计算量小,能够收敛到全局最优,适用于复杂应用环境中无线多媒体通信网适应带宽配置的在线优化.仿真实验结果验证了算法的有效性.展开更多
文摘基于强化学习的方法,提出一种无线多媒体通信网适应带宽配置在线优化算法,在满足多类业务不同QoS(quality of service)要求的同时,提高网络资源的利用率.建立事件驱动的随机切换分析模型,将无线多媒体通信网中的适应带宽配置问题转化为带约束的连续时间Markov决策问题.利用此模型的动态结构特性,结合在线学习估计梯度与随机逼近改进策略,提出适应带宽配置在线优化算法.该算法不依赖于系统参数,如呼叫到达率、呼叫持续时间等,自适应性强,计算量小,能够收敛到全局最优,适用于复杂应用环境中无线多媒体通信网适应带宽配置的在线优化.仿真实验结果验证了算法的有效性.