期刊文献+
共找到120篇文章
< 1 2 6 >
每页显示 20 50 100
面向边缘计算的嵌入式FPGA卷积神经网络构建方法 被引量:47
1
作者 卢冶 陈瑶 +2 位作者 李涛 蔡瑞初 宫晓利 《计算机研究与发展》 EI CSCD 北大核心 2018年第3期551-562,共12页
当前,高计算消耗的应用和服务逐渐从集中式云计算中心向网络边缘的嵌入式环境迁移,FPGA因其灵活性和高能效特性,使其在边缘计算的嵌入式系统中得到广泛的应用.传统的FPGA卷积神经网络构造方法存在设计周期长和优化空间小等缺点,无法有... 当前,高计算消耗的应用和服务逐渐从集中式云计算中心向网络边缘的嵌入式环境迁移,FPGA因其灵活性和高能效特性,使其在边缘计算的嵌入式系统中得到广泛的应用.传统的FPGA卷积神经网络构造方法存在设计周期长和优化空间小等缺点,无法有效探索硬件加速器的设计空间,在网络边缘的的嵌入式环境下尤为明显.针对该问题,提出一种面向边缘计算的嵌入式FPGA平台卷积神经网络通用的构建方法.通过设计卷积神经网络函数中的网络层间可复用的加速器核心,以少量硬件资源实现性能优化的卷积神经网络硬件;通过拓展设计、缓存优化及数据流优化等技术,实现HLS设计优化;利用该方法在嵌入式FPGA平台上构建相应卷积神经网络,实验结果表明:优化后的网络模型在与Xeon E5-1620CPU和GTX Titan GPU相比时,在功耗与性能方面具有一定优势,适合应用于边缘计算环境中. 展开更多
关键词 边缘计算 卷积神经网路 FPGA 高层次综合 加速器核心
下载PDF
大数据分析与高速数据更新 被引量:46
2
作者 陈世敏 《计算机研究与发展》 EI CSCD 北大核心 2015年第2期333-342,共10页
大数据对于数据管理系统平台的主要挑战可以归纳为volume(数据量大)、velocity(数据的产生、获取和更新速度快)和variety(数据种类繁多)3个方面.针对大数据分析系统,尝试解读velocity的重要性和探讨如何应对velocity的挑战.首先比较事... 大数据对于数据管理系统平台的主要挑战可以归纳为volume(数据量大)、velocity(数据的产生、获取和更新速度快)和variety(数据种类繁多)3个方面.针对大数据分析系统,尝试解读velocity的重要性和探讨如何应对velocity的挑战.首先比较事物处理、数据流、与数据分析系统对velocity的不同要求.然后从数据更新与大数据分析系统相互关系的角度出发,讨论两项近期的研究工作:1)MaSM,在数据仓库系统中支持在线数据更新;2)LogKV,在日志处理系统中支持高速流入的日志数据和高效的基于时间窗口的连接操作.通过分析比较发现,存储数据更新只是最基本的要求,更重要的是应该把大数据的从更新到分析作为数据的整个生命周期,进行综合考虑和优化,根据大数据分析的特点,优化高速数据更新的数据组织和数据分布方式,从而保证甚至提高数据分析运算的效率. 展开更多
关键词 数据更新 大数据分析 数据仓库 日志处理系统 数据组织与分布算法
下载PDF
任务并行编程模型研究与进展 被引量:29
3
作者 王蕾 崔慧敏 +1 位作者 陈莉 冯晓兵 《软件学报》 EI CSCD 北大核心 2013年第1期77-90,共14页
任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型... 任务并行编程模型是近年来多核平台上广泛研究和使用的并行编程模型,旨在简化并行编程和提高多核利用率.首先,介绍了任务并行编程模型的基本编程接口和支持机制;然后,从3个角度,即并行性表达、数据管理和任务调度介绍任务并行编程模型的研究问题、困难和最新研究成果;最后展望了任务并行未来的研究方向. 展开更多
关键词 任务并行 并行编程模型 任务窃取调度 并行性表达
下载PDF
面向Internet数据中心的资源管理 被引量:25
4
作者 张伟 宋莹 +2 位作者 阮利 祝明发 肖利民 《软件学报》 EI CSCD 北大核心 2012年第2期179-199,共21页
Internet数据中心向多元化、智能化、自动化、规模化与标准化道路发展,其规模越来越大、越来越复杂,这为如何有效管理资源带来极大的冲击与挑战.当前,资源管理已成为Internet数据中心亟待解决的重要问题,其重要性与紧迫性已不容忽视.分... Internet数据中心向多元化、智能化、自动化、规模化与标准化道路发展,其规模越来越大、越来越复杂,这为如何有效管理资源带来极大的冲击与挑战.当前,资源管理已成为Internet数据中心亟待解决的重要问题,其重要性与紧迫性已不容忽视.分析了Internet数据中心资源管理面临的两大挑战:(1)满足并发多应用SLAs(service level agreements)的兼容性;(2)提高系统服务的能量有效性.以挑战为主线,对近十几年来国内外在满足SLA、降低功耗、同时满足SLA和降低功耗方面所取得的资源管理研究成果进行了全面的概括总结和分析,最后进行总结并对未来的研究发展趋势提出观点. 展开更多
关键词 数据中心 资源管理 SLA(service LEVEL agreement) 功耗 虚拟化
下载PDF
芯片敏捷开发实践:标签化RISC-V 被引量:16
5
作者 余子濠 刘志刚 +4 位作者 李一苇 黄博文 王卅 孙凝晖 包云岗 《计算机研究与发展》 EI CSCD 北大核心 2019年第1期35-48,共14页
随着开放指令集RISC-V的流行,开源芯片的概念逐渐进入人们的视野.但是目前的芯片设计项目需要投入相当的人力和时间才能开展,并且具有一定的风险,这些情况一定程度上限制了开源芯片的发展.为了进一步降低芯片开发的门槛,加州大学伯克利... 随着开放指令集RISC-V的流行,开源芯片的概念逐渐进入人们的视野.但是目前的芯片设计项目需要投入相当的人力和时间才能开展,并且具有一定的风险,这些情况一定程度上限制了开源芯片的发展.为了进一步降低芯片开发的门槛,加州大学伯克利分校先后设计了开放指令集RISC-V,开放了其SoC实现Rocket Chip的项目源码,并提出了一门面向敏捷开发的硬件构建语言Chisel.RISC-V,Rocket Chip和Chisel是如何赋能开源芯片敏捷开发?将基于中国科学院计算技术研究所的研究工作"标签化RISC-V"项目开发过程中的若干案例,展示:1)开放又活跃的指令集生态(如RISC-V)是推动芯片研发创新的必要条件;2)Chisel的信号整体连接、元编程、面向对象编程以及函数式编程等特性可大幅缩减代码量,提升代码可维护性;3)敏捷开发能在编码效率提升一个数量级的同时,达到与传统硬件开发模式相当甚至更优的性能、功耗与面积. 展开更多
关键词 RISC-V Chisel 开源 芯片设计 敏捷开发
下载PDF
异构并行编程模型研究与进展 被引量:13
6
作者 刘颖 吕方 +3 位作者 王蕾 陈莉 崔慧敏 冯晓兵 《软件学报》 EI CSCD 北大核心 2014年第7期1459-1475,共17页
近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已被广泛使用和研究.从异构并行编程接口与编译/运行时支持系统两个角度总结了异构并行编程模型最新的研究成果,它们为异构架构和上层应用带来的技术挑... 近年来,异构系统硬件飞速发展.为了解决相应的编程和执行效率问题,异构并行编程模型已被广泛使用和研究.从异构并行编程接口与编译/运行时支持系统两个角度总结了异构并行编程模型最新的研究成果,它们为异构架构和上层应用带来的技术挑战提供了相应的解决方案.最后,结合目前的研究现状以及异构系统的发展,提出了异构并行编程模型的未来方向. 展开更多
关键词 异构并行编程模型 异构系统 GPU 编程接口 编译 运行时系统
下载PDF
基于细粒度数据流架构的稀疏神经网络全连接层加速 被引量:11
7
作者 向陶然 叶笑春 +4 位作者 李文明 冯煜晶 谭旭 张浩 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2019年第6期1192-1204,共13页
深度神经网络(deep neural network,DNN)是目前最先进的图像识别算法,被广泛应用于人脸识别、图像识别、文字识别等领域.DNN具有极高的计算复杂性,为解决这个问题,近年来涌出了大量可以并行运算神经网络的硬件加速器.但是,DNN中的全连... 深度神经网络(deep neural network,DNN)是目前最先进的图像识别算法,被广泛应用于人脸识别、图像识别、文字识别等领域.DNN具有极高的计算复杂性,为解决这个问题,近年来涌出了大量可以并行运算神经网络的硬件加速器.但是,DNN中的全连接层有大量的权重参数,对加速器的带宽提出了很高的要求.为了减轻加速器的带宽压力,一些DNN压缩算法被提出.然而基于FPGA和ASIC的DNN专用加速器,通常是通过牺牲硬件的灵活性获得更高的加速比和更低的能耗,很难实现稀疏神经网络的加速.而另一类基于CPU,GPU的CNN加速方案虽然较为灵活,但是带来很高的能耗.细粒度数据流体系结构打破了传统的控制流结构的限制,展示出了加速DNN的天然优势,它在提供高性能的运算能力的同时也保持了一定的灵活性.为此,提出了一种在基于细粒度数据流体系结构的硬件加速器上加速稀疏的DNN全连接层的方案.该方案相较于原有稠密的全连接层的计算减少了2.44×~6.17×的峰值带宽需求.此外细粒度数据流加速器在运行稀疏全连接层时的计算部件利用率远超过其他硬件平台对稀疏全连接层的实现,平均比CPU,GPU和mGPU分别高了43.15%,34.57%和44.24%. 展开更多
关键词 细粒度数据流 稀疏神经网络 通用加速器 数据重用 高并行性
下载PDF
面向高通量计算机的图算法优化技术 被引量:10
8
作者 张承龙 曹华伟 +4 位作者 王国波 郝沁汾 张洋 叶笑春 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2020年第6期1152-1163,共12页
随着互联网技术的蓬勃发展,图数据的规模呈爆炸式增长.如何高效地处理大规模图数据逐渐成为工业界和学术界关注的焦点.宽度优先搜索算法是解决图遍历问题的经典算法,也是Graph500基准的核心测试程序之一.高通量计算机采用ARM架构的众核... 随着互联网技术的蓬勃发展,图数据的规模呈爆炸式增长.如何高效地处理大规模图数据逐渐成为工业界和学术界关注的焦点.宽度优先搜索算法是解决图遍历问题的经典算法,也是Graph500基准的核心测试程序之一.高通量计算机采用ARM架构的众核体系结构,具有高并发、强实时、低功耗等适于大数据计算的特点.在单节点上,BFS算法的优化已取得一系列进展,首先对现有的优化技术进行系统的介绍,并在此基础上提出2种面向高通量计算机的优化手段,通过减少冗余访存和提高缓存局部性,有效提高了算法的访存效率.通过这些优化手段,在高通量计算机上对BFS算法的性能进行了系统的评估.对于顶点规模为230的Kronecker图(顶点数为230,边数为234),优化后的BFS算法在高通量计算机上的平均性能为24.26 GTEPS.与两路x86架构服务器相比,单节点具有1.18倍的性能优势.在性能功耗比方面,高通量计算机的结果为181.04 MTEPS W.在2019年6月份的Green Graph500面向大数据集的排行榜上取得第2名的成绩.综上,高通量计算机的高并发和低功耗等特点非常适合处理大规模图计算等数据密集型应用. 展开更多
关键词 宽度优先搜索 高通量 Graph500 图算法 超算
下载PDF
异构平台上性能自适应FFT框架 被引量:9
9
作者 李焱 张云泉 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期637-649,共13页
快速傅里叶变换(fast Fourier transform,FFT)在科学和工程界中具有着广泛的应用,尤其是在信号处理、图像处理以及求解偏微分方程领域.基于图形处理器(graphic processing unit,GPU)和加速处理器(accelerated processing unit,APU)的异... 快速傅里叶变换(fast Fourier transform,FFT)在科学和工程界中具有着广泛的应用,尤其是在信号处理、图像处理以及求解偏微分方程领域.基于图形处理器(graphic processing unit,GPU)和加速处理器(accelerated processing unit,APU)的异构平台,提出了自适应性能优化的大规模并行FFT(massively parallel FFT,MPFFT)框架.MPFFT框架采用了安装时和运行时2层自适应策略.安装时借助代码产生器可以生成被GPU程序内核(kernel)调用的任意长度的代码模板库(codelet);运行时根据自动调优技术使代码产生器生成高度优化的GPU计算代码.实验结果表明:MPFFT在APU平台上,一维、二维以及三维FFT相对于AMD clAmdFft 1.6取得的平均加速比分别为3.45,15.20以及4.47,在AMD HD7970GPU上平均加速比分别为1.75,3.01和1.69.在NVIDIA Tesla C2050GPU上取得的整体性能都达到了CUFFT 4.1的93%,最大加速比能够达到1.28. 展开更多
关键词 快速傅里叶变换 自适应性能优化 加速处理器 图形处理器 异构
下载PDF
面向Android应用隐私泄露检测的多源污点分析技术 被引量:10
10
作者 王蕾 周卿 +2 位作者 何冬杰 李炼 冯晓兵 《软件学报》 EI CSCD 北大核心 2019年第2期211-230,共20页
当前,静态污点分析检测Android应用隐私泄露存在误报率较高的问题,这给检测人员和用户带来很大的不便.针对这一问题,提出了一种多源绑定发生的污点分析技术.该技术可以精确地判断污点分析结果中多组源是否可以在一次执行中绑定发生,用... 当前,静态污点分析检测Android应用隐私泄露存在误报率较高的问题,这给检测人员和用户带来很大的不便.针对这一问题,提出了一种多源绑定发生的污点分析技术.该技术可以精确地判断污点分析结果中多组源是否可以在一次执行中绑定发生,用户可以从单一分析1条结果转为分析有关联的多组结果,这既缩小了分析范围,又降低了检测的误报率.在精度上,该技术支持上下文敏感、流敏感、域敏感等特性,并可以有效地区分出分支互斥的情况.在效率上,提供了一种高效的实现方法,可以将高复杂度(指数级别)的分析降低为与传统方法时间相近的分析(初始阶段开销为19.7%,进一步的多源分析平均时间为0.3s).基于此,实现了一个原型系统MultiFlow,利用其对2116个良性手机软件和2089个恶意手机软件进行应用,应用结果表明,多源污点分析技术可以有效地降低隐私泄露检测的误报率(减少多源对41.1%).同时,还提出了一种污点分析结果风险评级标准,评级标准可以进一步帮助用户提高隐私泄露检测的效率.最后探讨了该技术潜在的应用场景. 展开更多
关键词 程序分析 污点分析 软件安全 静态分析 ANDROID
下载PDF
选择稀疏矩阵乘法最优存储格式的研究 被引量:10
11
作者 李佳佳 张秀霞 +1 位作者 谭光明 陈明宇 《计算机研究与发展》 EI CSCD 北大核心 2014年第4期882-894,共13页
稀疏矩阵向量乘法(sparse matrix vector multiplication,SpMV)是科学和工程领域中重要的核心子程序之一,也是稀疏基本线性代数子程序(basic linear algebra subprograms,BLAS)库的重要函数.目前很多SpMV的优化工作在不同程度上获... 稀疏矩阵向量乘法(sparse matrix vector multiplication,SpMV)是科学和工程领域中重要的核心子程序之一,也是稀疏基本线性代数子程序(basic linear algebra subprograms,BLAS)库的重要函数.目前很多SpMV的优化工作在不同程度上获得了性能提升,但大多数优化工作针对特定存储格式或一类具有特定特征的稀疏矩阵缺乏通用性,因此高性能的SpMV实现并没有广泛地应用于实际应用和数值解法器中.另外,稀疏矩阵具有众多存储格式,不同存储格式的SpMV存在较大性能差异.根据以上现象,提出一个SpMV的自动调优器(SpMV auto-tuner,SMAT).对于一个给定的稀疏矩阵,SMAT结合矩阵特征选择并返回其最优的存储格式,应用程序通过调用SMAT来得到合适的存储格式,从而获得性能提升,同时随着SMAT中存储格式的扩展,更多的SpMV优化工作可以将性能优势在实际应用中发挥作用.使用佛罗里达大学的2 366个稀疏矩阵作为测试集,在Intel上SMAT分别获得9.11GFLOPS(单精度)和2.44GFLOPS(双精度)的最高浮点性能,在AMD平台上获得了3.36GFLOPS(单精度)和1.52GFLOPS(双精度)的最高浮点性能.相比Intel的核心数学函数库(math kernel library,MKL)数学库,SMAT平均获得1.4~1.5倍的性能提升. 展开更多
关键词 SpMV 自动调优 数值解法器 稀疏矩阵 SpBLAS
下载PDF
面向大数据处理的基于Spark的异质内存编程框架 被引量:9
12
作者 王晨曦 吕方 +4 位作者 崔慧敏 曹婷 John Zigman 庄良吉 冯晓兵 《计算机研究与发展》 EI CSCD 北大核心 2018年第2期246-264,共19页
随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量... 随着大数据应用的发展,需要处理的数据量急剧增长,企业为了保证数据的及时处理并快速响应客户,正在广泛部署以Apache Spark为代表的内存计算系统.然而TB级别的内存不但造成了服务器成本的上升,也促进了功耗的增长.由于DRAM的功耗、容量密度受限于工艺瓶颈,无法满足内存计算快速增长的内存需求,因此研发人员将目光逐渐移向了新型的非易失性内存(non-volatile memory,NVM).由DRAM和NVM共同构成的异质内存,具有低成本、低功耗、高容量密度等特点,但由于NVM读写性能较差,如何合理布局数据到异质内存是一个关键的研究问题.系统分析了Spark应用的访存特征,并结合OpenJDK的内存使用特点,提出了一套管理数据在DRAM和NVM之间布局的编程框架.应用开发者通过对本文提供接口的简单调用,便可将数据合理布局在异质内存之中.仅需20%~25%的DRAM和大量的NVM,便可以达到使用等量的DRAM时90%左右的性能.该框架可以通过有效利用异质内存来满足内存计算不断增长的计算规模.同时,"性能/价格"比仅用DRAM时提高了数倍. 展开更多
关键词 内存计算 SPARK 异质内存 非易失性内存 编程框架
下载PDF
处理器芯片敏捷设计方法:问题与挑战 被引量:7
13
作者 包云岗 常轶松 +11 位作者 韩银和 黄立波 李华伟 梁云 罗国杰 尚笠 唐丹 王颖 解壁伟 喻文健 张科 孙凝晖 《计算机研究与发展》 EI CSCD 北大核心 2021年第6期1131-1145,共15页
现有处理器芯片设计主要使用性能导向的设计方法,基于多步骤反复迭代的EDA技术进行性能-面积-功耗综合优化,导致极高的研发成本、周期及技术门槛.借鉴面向对象软件设计思想,以敏捷度(开发周期、开发成本和复杂度)为新的导向指标,在兼顾... 现有处理器芯片设计主要使用性能导向的设计方法,基于多步骤反复迭代的EDA技术进行性能-面积-功耗综合优化,导致极高的研发成本、周期及技术门槛.借鉴面向对象软件设计思想,以敏捷度(开发周期、开发成本和复杂度)为新的导向指标,在兼顾性能和可靠性的前提下,提出以面向对象体系结构(object-oriented architecture,OOA)设计范式为基础的处理器敏捷设计方法.OOA设计方法旨在通过设计范式、语言与EDA工具,实现通用处理器CPU和专用处理器XPU体系结构细粒度对象的易分解、易组合和易扩展.详细梳理了OOA各技术领域的研究现状,并深入探讨了现有处理器设计方法向OOA设计目标转化存在的诸多挑战. 展开更多
关键词 处理器芯片设计 面向对象体系结构 设计范式 芯片敏捷设计语言 EDA工具
下载PDF
FAQ-CNN:面向量化卷积神经网络的嵌入式FPGA可扩展加速框架 被引量:7
14
作者 谢坤鹏 卢冶 +4 位作者 靳宗明 刘义情 龚成 陈新伟 李涛 《计算机研究与发展》 EI CSCD 北大核心 2022年第7期1409-1427,共19页
卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量... 卷积神经网络(convolutional neural network, CNN)模型量化可有效压缩模型尺寸并提升CNN计算效率.然而,CNN模型量化算法的加速器设计,通常面临算法各异、代码模块复用性差、数据交换效率低、资源利用不充分等问题.对此,提出一种面向量化CNN的嵌入式FPGA加速框架FAQ-CNN,从计算、通信和存储3方面进行联合优化,FAQ-CNN以软件工具的形式支持快速部署量化CNN模型.首先,设计面向量化算法的组件,将量化算法自身的运算操作和数值映射过程进行分离;综合运用算子融合、双缓冲和流水线等优化技术,提升CNN推理任务内部的并行执行效率.然后,提出分级编码与位宽无关编码规则和并行解码方法,支持低位宽数据的高效批量传输和并行计算.最后,建立资源配置优化模型并转为整数非线性规划问题,在求解时采用启发式剪枝策略缩小设计空间规模.实验结果表明,FAQ-CNN能够高效灵活地实现各类量化CNN加速器.在激活值和权值为16 b时,FAQ-CNN的加速器计算性能是Caffeine的1.4倍;在激活值和权值为8 b时,FAQ-CNN可获得高达1.23TOPS的优越性能. 展开更多
关键词 卷积神经网络量化 量化算法解耦 并行编解码 片上资源建模 加速器设计
下载PDF
基于粗粒度数据流架构的稀疏卷积神经网络加速 被引量:7
15
作者 吴欣欣 欧焱 +3 位作者 李文明 王达 张浩 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2021年第7期1504-1517,共14页
卷积神经网络(convolutional neural network,CNN)在图像处理、语音识别、自然语言处理等领域实现了很好的性能.大规模的神经网络模型通常遭遇计算、存储等资源限制,稀疏神经网络的出现有效地缓解了对计算和存储的需求.尽管现有的领域... 卷积神经网络(convolutional neural network,CNN)在图像处理、语音识别、自然语言处理等领域实现了很好的性能.大规模的神经网络模型通常遭遇计算、存储等资源限制,稀疏神经网络的出现有效地缓解了对计算和存储的需求.尽管现有的领域专用加速器能够有效处理稀疏网络,它们通过算法和结构的紧耦合实现高能效,却丧失了结构的灵活性.粗粒度数据流架构通过灵活的指令调度可以实现不同的神经网络应用.基于该架构,密集卷积规则的计算特性使不同通道共享相同的一套指令执行,然而稀疏网络中存在权值稀疏,使得这些指令中存在0值相关的无效指令,而现有的指令执行方式无法自动跳过它们从而产生无效计算.同时在执行不规则的稀疏网络时,现有的指令映射方法造成了计算阵列的负载不均衡.这些问题阻碍了稀疏网络性能的提升.基于不同通道共享一套指令的前提下,根据稀疏网络的数据和指令特征增加指令控制单元实现权值数据中0值相关指令的检测和跳过,同时使用负载均衡的指令映射算法解决稀疏网络中指令执行不均衡问题.实验表明:与密集网络相比稀疏网络实现了平均1.55倍的性能提升和63.77%的能耗减少.同时比GPU(cuSparse)和Cambricon-X实现的稀疏网络分别快2.39倍(Alexnet)、2.28倍(VGG16)和1.14倍(Alexnet)、1.23倍(VGG16). 展开更多
关键词 领域专用加速器 粗粒度数据流 稀疏卷积神经网络 指令映射 指令控制
下载PDF
可信执行环境软件侧信道攻击研究综述 被引量:6
16
作者 杨帆 张倩颖 +1 位作者 施智平 关永 《软件学报》 EI CSCD 北大核心 2023年第1期381-403,共23页
为保护计算设备中安全敏感程序运行环境的安全,研究人员提出了可信执行环境(TEE)技术,通过对硬件和软件进行隔离为安全敏感程序提供一个与通用计算环境隔离的安全运行环境.侧信道攻击从传统的需要昂贵设备发展到现在仅基于微体系结构状... 为保护计算设备中安全敏感程序运行环境的安全,研究人员提出了可信执行环境(TEE)技术,通过对硬件和软件进行隔离为安全敏感程序提供一个与通用计算环境隔离的安全运行环境.侧信道攻击从传统的需要昂贵设备发展到现在仅基于微体系结构状态就能通过软件方式获取机密信息的访问模式,从而进一步推测出机密信息.TEE架构仅提供隔离机制,无法抵抗这类新出现的软件侧信道攻击.深入调研了ARM TrustZone、Intel SGX和AMD SEV这3种TEE架构的软件侧信道攻击及相应防御措施,并探讨其攻击和防御机制的发展趋势.首先,介绍了ARM TrustZone、Intel SGX和AMD SEV的基本原理,并详细阐述了软件侧信道攻击的定义以及缓存侧信道攻击的分类、方法和步骤;之后从处理器指令执行的角度,提出一种TEE攻击面分类方法,利用该方法对TEE软件侧信道攻击进行分类,并阐述了软件侧信道攻击与其他攻击相结合的组合攻击;然后详细讨论TEE软件侧信道攻击的威胁模型;最后全面总结业界对TEE软件侧信道攻击的防御措施,并从攻击和防御两方面探讨TEE软件侧信道攻击未来的研究趋势. 展开更多
关键词 可信执行环境(TEE) 隔离架构 ARM TrustZone Intel SGX AMD SEV 软件侧信道攻击
下载PDF
基于稀疏框架的静态污点分析优化技术 被引量:7
17
作者 王蕾 何冬杰 +1 位作者 李炼 冯晓兵 《计算机研究与发展》 EI CSCD 北大核心 2019年第3期480-495,共16页
当前,隐私数据保护是信息系统安全的重要研究挑战,对应用程序进行隐私泄露检测是隐私泄露保护的有效方案.污点分析技术可以有效地对应用程序进行保密性和完整性的安全检测,提前报告出潜在的隐私泄露风险.然而,当前高敏感度的静态污点分... 当前,隐私数据保护是信息系统安全的重要研究挑战,对应用程序进行隐私泄露检测是隐私泄露保护的有效方案.污点分析技术可以有效地对应用程序进行保密性和完整性的安全检测,提前报告出潜在的隐私泄露风险.然而,当前高敏感度的静态污点分析还存在开销过高的问题.通过对目前主流的污点分析工具FlowDroid进行深入分析,发现其污点分析计算中大量无关联污点传播是导致开销过高的重要原因,统计实验表明无关联传播占比高达85.2%.针对这一问题,尝试利用近年来一种有效的程序分析优化手段——稀疏优化——的方法,对静态污点分析中无关联的传播进行消除,达到时间和空间的开销优化.创新地将经典的数据流分析框架扩展成稀疏的形式,在此基础上提供了基于稀疏优化的污点分析方法.最后实现了工具FlowDroidSP,实验表明:FlowDroidSP在非剪枝模式下相比原FlowDroid具有平均4.8倍的时间加速和61.5%的内存降低.在剪枝模式下,具有平均18.1倍的时间加速和76.1%的内存降低. 展开更多
关键词 隐私泄露检测 静态程序分析 污点分析 程序优化 安卓
下载PDF
图神经网络加速结构综述 被引量:7
18
作者 李涵 严明玉 +4 位作者 吕征阳 李文明 叶笑春 范东睿 唐志敏 《计算机研究与发展》 EI CSCD 北大核心 2021年第6期1204-1229,共26页
近年来,新兴的图神经网络因其强大的图学习和推理能力,得到学术界和工业界的广泛关注,被认为是推动人工智能领域迈入“认知智能”阶段的核心力量.图神经网络融合传统图计算和神经网络的执行过程,形成了不规则与规则的计算和访存行为共... 近年来,新兴的图神经网络因其强大的图学习和推理能力,得到学术界和工业界的广泛关注,被认为是推动人工智能领域迈入“认知智能”阶段的核心力量.图神经网络融合传统图计算和神经网络的执行过程,形成了不规则与规则的计算和访存行为共存的混合执行模式.传统处理器结构设计以及面向图计算和神经网络的加速结构不能同时应对2种对立的执行行为,无法满足图神经网络的加速需求.为解决上述问题,面向图神经网络应用的专用加速结构不断涌现,它们为图神经网络定制计算硬件单元和片上存储层次,优化计算和访存行为,取得了良好的加速效果.以图神经网络执行行为带来的加速结构设计挑战为出发点,从整体结构设计以及计算、片上访存、片外访存层次对该领域的关键优化技术进行详实而系统地分析与介绍.最后还从不同角度对图神经网络加速结构设计的未来方向进行了展望,期望能为该领域的研究人员带来一定的启发. 展开更多
关键词 图神经网络 混合执行模式 加速结构 人工智能 领域专用架构
下载PDF
高性能GPU模拟器的实现 被引量:6
19
作者 张立志 赵士彭 +2 位作者 赵皓宇 苏孟豪 刘苏 《高技术通讯》 EI CAS 北大核心 2020年第6期553-560,共8页
基于图形处理器(GPU)由固定功能管线与可编程流处理器单元构成的特点,设计了一种半周期精确的模拟器实现方法,并结合一种GPU结构进行了GPU模拟器的实现。GPU模拟器支持OpenGL 2.0 API,在实现了固定功能管线的基础上,支持统一着色器渲染... 基于图形处理器(GPU)由固定功能管线与可编程流处理器单元构成的特点,设计了一种半周期精确的模拟器实现方法,并结合一种GPU结构进行了GPU模拟器的实现。GPU模拟器支持OpenGL 2.0 API,在实现了固定功能管线的基础上,支持统一着色器渲染架构。模拟器对GPU结构进行半周期精确模拟。固定功能管线部分实现为完全周期精确模拟,可以进行3D图形算法的正确性验证以及性能评估。对可编程流处理器单元进行指令级功能模拟,在固定功能管线部分的配合下,可以快速轻量地对整个GPU结构进行结构与功能的验证。文章使用模拟器运行了glmark2测试集,并且根据测试结果对GPU结构进行3D图形算法正确性验证与性能评估,结果表明基于本文设计方法的GPU模拟器可以快速轻量地实现3D图形算法正确性验证与性能分析。 展开更多
关键词 图形处理器(GPU) 模拟器 半周期精确 glmark2 逆序流水
下载PDF
新型非易失存储的安全与隐私问题研究综述 被引量:6
20
作者 徐远超 闫俊峰 +3 位作者 万虎 孙凤芸 张伟功 李涛 《计算机研究与发展》 EI CSCD 北大核心 2016年第9期1930-1942,共13页
近年来,以相变存储器(phase change memory,PCM)为代表的各种新型非易失存储(nonvolatile memory,NVM)技术得到广泛关注.NVM同时具有传统内存的字节寻址特性和外存的非易失特性,因而可以同时替代内存和外存,也可以用于混合存储体系结构.... 近年来,以相变存储器(phase change memory,PCM)为代表的各种新型非易失存储(nonvolatile memory,NVM)技术得到广泛关注.NVM同时具有传统内存的字节寻址特性和外存的非易失特性,因而可以同时替代内存和外存,也可以用于混合存储体系结构.NVM具有低延时、高密度、低功耗的优势,有效缓解了存储墙问题.然而,由于应用程序可以直接通过存取指令(load/store)接口访问NVM,并且掉电后存储在NVM上的信息不会丢失,这给NVM的应用带来了一些新的安全和隐私挑战.首先讨论了持久化内存泄漏、不经意写操作、元数据安全、恶意磨损攻击、非易失指针等NVM应用中可能存在的安全问题以及最新的解决方案;然后讨论了数据保护、信息泄露等NVM应用中可能存在的隐私问题及现有的解决方案;最后探讨了NVM还需解决的安全和隐私问题,包括非易失缓存、程序安全等,并提出了一些解决方案,包括权限和保护机制的融合、使用易失性的NVM等. 展开更多
关键词 内存泄漏 非易失性存储 安全 隐私 磨损攻击 不经意写
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部