无人驾驶技术的关键是决策层根据感知环节输入信息做出准确指令。强化学习和模仿学习比传统规则更适用于复杂场景。但以行为克隆为代表的模仿学习存在复合误差问题,使用优先经验回放算法对行为克隆进行改进,提升模型对演示数据集的拟合...无人驾驶技术的关键是决策层根据感知环节输入信息做出准确指令。强化学习和模仿学习比传统规则更适用于复杂场景。但以行为克隆为代表的模仿学习存在复合误差问题,使用优先经验回放算法对行为克隆进行改进,提升模型对演示数据集的拟合能力;原DDPG(deep deterministic policy gradient)算法存在探索效率低下问题,使用经验池分离以及随机网络蒸馏技术(random network distillation,RND)对DDPG算法进行改进,提升DDPG算法训练效率。使用改进后的算法进行联合训练,减少DDPG训练前期的无用探索。通过TORCS(the open racing car simulator)仿真平台验证,实验结果表明该方法在相同的训练次数内,能够探索出更稳定的道路保持、速度保持和避障能力。展开更多
为解决多客户端的带宽资源分配问题,提高用户体验质量(quality of experience,QoE),建立多客户端视频流的体验质量优化框架。针对已有视频流算法在多客户端领域的缺陷,基于模型预测控制算法提出一个多客户端带宽动态调度算法,根据每个...为解决多客户端的带宽资源分配问题,提高用户体验质量(quality of experience,QoE),建立多客户端视频流的体验质量优化框架。针对已有视频流算法在多客户端领域的缺陷,基于模型预测控制算法提出一个多客户端带宽动态调度算法,根据每个客户端的带宽预测情况对它们进行动态资源分配,通过提高带宽利用率进而提升总体用户QoE。在HSDPA网络带宽轨迹上的仿真结果表明,相比各客户端平均带宽分配方式,优化方法在总体用户体验质量上提升42.6%以上,相比最新的Minerva方案提升了7.8%。展开更多
文摘无人驾驶技术的关键是决策层根据感知环节输入信息做出准确指令。强化学习和模仿学习比传统规则更适用于复杂场景。但以行为克隆为代表的模仿学习存在复合误差问题,使用优先经验回放算法对行为克隆进行改进,提升模型对演示数据集的拟合能力;原DDPG(deep deterministic policy gradient)算法存在探索效率低下问题,使用经验池分离以及随机网络蒸馏技术(random network distillation,RND)对DDPG算法进行改进,提升DDPG算法训练效率。使用改进后的算法进行联合训练,减少DDPG训练前期的无用探索。通过TORCS(the open racing car simulator)仿真平台验证,实验结果表明该方法在相同的训练次数内,能够探索出更稳定的道路保持、速度保持和避障能力。
文摘为解决多客户端的带宽资源分配问题,提高用户体验质量(quality of experience,QoE),建立多客户端视频流的体验质量优化框架。针对已有视频流算法在多客户端领域的缺陷,基于模型预测控制算法提出一个多客户端带宽动态调度算法,根据每个客户端的带宽预测情况对它们进行动态资源分配,通过提高带宽利用率进而提升总体用户QoE。在HSDPA网络带宽轨迹上的仿真结果表明,相比各客户端平均带宽分配方式,优化方法在总体用户体验质量上提升42.6%以上,相比最新的Minerva方案提升了7.8%。