期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
强化学习算法与应用综述 被引量:42
1
作者 李茹杨 彭慧民 +1 位作者 李仁刚 赵坤 《计算机系统应用》 2020年第12期13-25,共13页
强化学习是机器学习领域的研究热点,是考察智能体与环境的相互作用,做出序列决策、优化策略并最大化累积回报的过程.强化学习具有巨大的研究价值和应用潜力,是实现通用人工智能的关键步骤.本文综述了强化学习算法与应用的研究进展和发... 强化学习是机器学习领域的研究热点,是考察智能体与环境的相互作用,做出序列决策、优化策略并最大化累积回报的过程.强化学习具有巨大的研究价值和应用潜力,是实现通用人工智能的关键步骤.本文综述了强化学习算法与应用的研究进展和发展动态,首先介绍强化学习的基本原理,包括马尔可夫决策过程、价值函数、探索-利用问题.其次,回顾强化学习经典算法,包括基于价值函数的强化学习算法、基于策略搜索的强化学习算法、结合价值函数和策略搜索的强化学习算法,以及综述强化学习前沿研究,主要介绍多智能体强化学习和元强化学习方向.最后综述强化学习在游戏对抗、机器人控制、城市交通和商业等领域的成功应用,以及总结与展望. 展开更多
关键词 强化学习 算法 应用 多智能体强化学习 元强化学习
下载PDF
卷积神经网络压缩与加速技术研究进展 被引量:9
2
作者 尹文枫 梁玲燕 +5 位作者 彭慧民 曹其春 赵健 董刚 赵雅倩 赵坤 《计算机系统应用》 2020年第9期16-25,共10页
神经网络压缩技术的出现缓解了深度神经网络模型在资源受限设备中的应用难题,如移动端或嵌入式设备.但神经网络压缩技术在压缩处理的自动化、稀疏度与硬件部署之间的矛盾、避免压缩后模型重训练等方面存在困难.本文在回顾经典神经网络... 神经网络压缩技术的出现缓解了深度神经网络模型在资源受限设备中的应用难题,如移动端或嵌入式设备.但神经网络压缩技术在压缩处理的自动化、稀疏度与硬件部署之间的矛盾、避免压缩后模型重训练等方面存在困难.本文在回顾经典神经网络模型和现有神经网络压缩工具的基础上,总结参数剪枝、参数量化、低秩分解和知识蒸馏四类压缩方法的代表性压缩算法的优缺点,概述压缩方法的评测指标和常用数据集,并分析各种压缩方法在不同任务和硬件资源约束中的性能表现,展望神经网络压缩技术具有前景的研究方向. 展开更多
关键词 神经网络压缩 参数剪枝 参数量化 低秩分解 知识蒸馏
下载PDF
一种通用型卷积神经网络加速器架构研究 被引量:2
3
作者 董刚 胡克坤 +5 位作者 杨宏斌 赵雅倩 李仁刚 赵坤 曹其春 鲁璐 《微电子学与计算机》 2023年第5期97-103,共7页
针对当前AI专用加速器设计复杂且存在内存瓶颈等不足,提出一种通用型卷积神经网络加速器架构.其RISC(Reduced Instruction Set Computer)指令集支持不同类型卷积神经网络到硬件加速器的高效映射.其通用卷积计算模块是一个由多个基本运... 针对当前AI专用加速器设计复杂且存在内存瓶颈等不足,提出一种通用型卷积神经网络加速器架构.其RISC(Reduced Instruction Set Computer)指令集支持不同类型卷积神经网络到硬件加速器的高效映射.其通用卷积计算模块是一个由多个基本运算单元组成的可重构三维脉动阵列,支持不同尺寸的二维卷积计算;脉动阵列规模可根据需要进行配置,适用不同的并行加速需求.为缓解内存瓶颈、提高算力,输入模块引入多级缓存结构,可实现对片外数据的高速读取;输出模块设计一种基于“乒乓”架构的多级数据累加结构,以实现卷积计算结果的高速缓存输出.将所提架构在FPGA芯片上予以实现,实验结果表明该架构凭借较少计算资源和较低功耗取得了与当前先进加速器相近的性能,且通用性更强. 展开更多
关键词 AI加速器 卷积神经网络 多尺寸卷积核 三维脉动阵列 多级累加结构
下载PDF
一种面向数据中心的能耗感知虚拟机放置策略 被引量:3
4
作者 杨傲 马春苗 +2 位作者 伍卫国 王思敏 赵坤 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2022年第5期145-153,共9页
随着互联网的不断发展,数据中心规模不断扩大,其面临的突出问题是如何保证数据中心安全运行并降低其运行能耗。目前的研究中仅着眼于降低数据中心运行能耗,并未考虑服务器的环境温度。若在高温区域持续增加负载,则可能导致局部热点问题... 随着互联网的不断发展,数据中心规模不断扩大,其面临的突出问题是如何保证数据中心安全运行并降低其运行能耗。目前的研究中仅着眼于降低数据中心运行能耗,并未考虑服务器的环境温度。若在高温区域持续增加负载,则可能导致局部热点问题,使得制冷设备处于过度制冷状态而导致数据中心运行能耗整体提高。针对上述问题,提出一种能耗感知的虚拟机放置策略,可以在降低数据中心运行能耗条件下避免热点出现。策略由两部分算法组成:第1部分为最佳适应算法,算法将物理机序列按照可用的CPU资源大小进行排序,对于当前虚拟机请求,按照文中提出的温度迫切值计算方法选择迫切值最小的物理机作为目标位置,并将目标物理机序列二进制化后作为遗传算法的初始种群;在第2部分遗传算法中,对种群进行交叉变异操作,通过适应度函数计算的适应度值选择出下一代种群,不断迭代计算最终得出最优解。为了验证所提出策略的有效性,在cloudsim仿真计算平台上进行了相关实验。仿真结果表明,所提方法在降低运行能耗的同时也降低了服务器间的温度波动值从而避免热点出现。 展开更多
关键词 数据中心 运行能耗 遗传算法 虚拟机放置
下载PDF
面向混合异构架构的模型并行训练优化方法 被引量:2
5
作者 高开 郭振华 +3 位作者 陈永芳 王丽 赵雅倩 赵坤 《计算机工程与科学》 CSCD 北大核心 2021年第1期42-48,共7页
随着混合异构平台的发展,出现了类型不一的加速设备,如何在混合异构平台中充分利用这些不同类型的设备,以及如何在多个计算设备之间部署深度学习模型,而且训练大型和复杂模型的重要性不断提高。数据并行(DP)是应用最广泛的并行化策略,... 随着混合异构平台的发展,出现了类型不一的加速设备,如何在混合异构平台中充分利用这些不同类型的设备,以及如何在多个计算设备之间部署深度学习模型,而且训练大型和复杂模型的重要性不断提高。数据并行(DP)是应用最广泛的并行化策略,但是如果数据并行训练中的设备数量不断增加,设备之间的通信开销就会成为瓶颈。此外,每个步骤因设备性能差异处理的批总量不同会导致精度损失,即需要更长的训练周期以收敛到期望的精度。这些因素会影响整体训练时间,并且会影响某些设备的运行效率。除了数据并行(DP),每个训练步骤都可以通过模型并行(MP)来加速。提出了一种适合混合异构平台的模型并行训练优化算法。首先,为解决混合异构平台中设备性能分布不均问题,提出了层级并行和通道并行混合的模型并行划分策略,同时通过合并一些性能偏低的设备来减少流水线的长度和缓解通信压力。然后为了优化设备间的流水效果,通过分析流水线建立时间占比和设备性能利用率对整体训练时间的影响,提出了一种可以使两者达到均衡状态的微批次划分方法。实验表明,通过本文方法优化之后的模型并行流水训练算法比传统的模型并行算法具有更好的加速比,在单一类型设备的异构平台上的训练性能加速比提升4%左右,在混合异构平台的训练性能加速比要比没有使用优化方法之前提升7%左右。 展开更多
关键词 混合异构 模型并行 微批次 设备差异
下载PDF
基于FPGA原语的低延时高速接口实现方法 被引量:1
6
作者 任智新 王江为 +1 位作者 阚宏伟 赵坤 《微型电脑应用》 2021年第5期99-101,共3页
现场可编程门阵列(FPGA)的原语是器件内最小组件,可直接调用以搭建功能的模块。针对当前FPGA内集成IP延时大的问题,在对I/O组件分析的基础上,提出了原语在高速接口中的应用方法,设计了可动态改变输出延时的PHY接口以及超低延时的高速接... 现场可编程门阵列(FPGA)的原语是器件内最小组件,可直接调用以搭建功能的模块。针对当前FPGA内集成IP延时大的问题,在对I/O组件分析的基础上,提出了原语在高速接口中的应用方法,设计了可动态改变输出延时的PHY接口以及超低延时的高速接口,并通过仿真表明了该方法的有效性,最后提出利用原语实现低延时的DDR SDRAM高速数据接口方法,有效地降低了接口延时,满足了对延时要求高的应用需求。 展开更多
关键词 原语 低延时 高速接口
下载PDF
存储Jbod测试规范 被引量:1
7
作者 谭世伟 丁兆鹏 陈思睿 《电脑知识与技术》 2020年第15期260-261,共2页
当前随着信息化的大力发展,数据量的锯齿状的增长,越来越需要大容量的存储设备,而存储服务器,存储Jbod的大力发展一方面满足了大容量数据的存储需求,另一方面为数据量的爆炸式增长提供了便捷的存储方式。存储Jbod设计上需要突出的地方... 当前随着信息化的大力发展,数据量的锯齿状的增长,越来越需要大容量的存储设备,而存储服务器,存储Jbod的大力发展一方面满足了大容量数据的存储需求,另一方面为数据量的爆炸式增长提供了便捷的存储方式。存储Jbod设计上需要突出的地方也越来越多,设计需求也越来越复杂,对测试验证的要求也越来越高。本文章通过结合具体客户的应用场景提出存储Jbod重点测试要点和方法论。 展开更多
关键词 存储Jbod 测试规范 方法论 测试验证
下载PDF
面向模型并行训练的模型拆分策略自动生成方法
8
作者 王丽 郭振华 +3 位作者 曹芳 高开 赵雅倩 赵坤 《计算机工程与科学》 CSCD 北大核心 2020年第9期1529-1537,共9页
随着训练数据规模的增大以及训练模型的日趋复杂,深度神经网络的训练成本越来越高,对计算平台提出了更高的算力需求,模型训练并行化成为增强其应用时效性的迫切需求。近年来基于分布式训练的AI加速器(如FPGA、TPU、AI芯片等)层出不穷,... 随着训练数据规模的增大以及训练模型的日趋复杂,深度神经网络的训练成本越来越高,对计算平台提出了更高的算力需求,模型训练并行化成为增强其应用时效性的迫切需求。近年来基于分布式训练的AI加速器(如FPGA、TPU、AI芯片等)层出不穷,为深度神经网络并行训练提供了硬件基础。为了充分利用各种硬件资源,研究人员需要在集合了多种不同算力、不同硬件架构AI加速器的计算平台上进行神经网络的模型并行训练,因此,如何高效利用各种AI加速器计算资源,并实现训练任务在多种加速器上的负载均衡,一直是研究人员关心的热点问题。提出了一种面向模型并行训练的模型拆分策略自动生成方法,该方法能够基于静态的网络模型自动生成模型拆分策略,实现网络层在不同AI加速器上的任务分配。基于该方法自动生成的模型分配策略,能够高效利用单个计算平台上的所有计算资源,并保证模型训练任务在各设备之间的负载均衡,与目前使用的人工拆分策略相比,具有更高的时效性,节省拆分策略生成时间100倍以上,且降低了由于人为因素带来的不确定性。 展开更多
关键词 模型并行 模型训练 模型拆分 负载均衡
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部