-
题名HL-TLS:支持热点的线程级猜测编译实现
- 1
-
-
作者
金跃
李春强
尚云海
卢永江
-
机构
浙江大学超大规模集成电路设计研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第11期77-83,共7页
-
基金
国家自然科学基金资助项目(61204111)
"核高基"重大专项(2010ZX01030-001-001-006)
-
文摘
猜测并行化编译,即线程级猜测(TLS)编译,可将原来顺序运行的程序并行化。但由于猜测数据的不确定性引起的数据管理开销过大,以及猜测线程失败引起的线程回滚开销,使得并行后的执行性能较低。针对上述问题,提出一种HL-TLS并行化编译优化框架。HL-TLS能有效地标记并行化的循环体为热点循环体,采用对最高层次热点循环体进行更激进的并行化的方式提高性能,而对非热点循环体采用保守的顺序执行以减少开销。实验结果表明,使用HL-TLS编译优化框架,实验程序的执行效率可以提高20%。
-
关键词
并行计算
多线程
猜测执行
线程级猜测并行
热点循环
动态转换执行机制
-
Keywords
parallel computing
multi-thread
speculative execution
Thread Level Speculation ( TLS ) parallel
HotLoops(HL)
dynamic transformation execution mechanism
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名一种基于持久化栈的返回地址预测器
- 2
-
-
作者
谭弘泽
王剑
-
机构
处理器芯片全国重点实验室(中国科学院计算技术研究所)
中国科学院大学
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2023年第6期1337-1345,共9页
-
基金
中国科学院战略性先导科技专项(C类)(XDC05020100)。
-
文摘
分支预测允许处理器并行执行分支之后的指令,由于其高准确率具有性能和功耗方面的双重好处,是一项重要的处理器优化技术.根据分而治之的策略,返回地址栈(return-address stack,RAS)将过程返回类分支单独分出并予以预测.其中,RAS利用过程调用和返回的后入先出规则,可通过猜测执行中调用栈的模拟准确预测返回地址.但是,由于实际处理器猜测执行带来的错误路径污染,该结构需要通过恢复机制来保障所存储数据的准确性.尤其在对面积资源敏感的嵌入式领域,设计者需要在准确率和恢复机制的开销间进行细致的权衡.针对RAS存储中的冗余,通过溢出检测结合传统栈、持久化栈和后备预测3种预测方式,提出一种基于持久化栈的返回地址预测器——混合返回地址栈(hybrid return-address stack,HRAS),避免错误路径污染和对返回地址的冗余存储,从而有效降低返回误预测率.与此同时,设计解耦传统栈和持久化栈,进一步降低其面积需求.根据SPEC CPU 2000基准测试以及设计编译器的评估结果,HRAS可利用仅1.1×10^(4)μm^(2)的设计面积将过程返回的每千条指令误预测(MPKI)降至2.4×10^(−3),其误预测相比现有RAS可降低96%.
-
关键词
返回地址预测
猜测执行
污染恢复
持久化
后备预测
-
Keywords
return address prediction
speculative execution
corruption recovery
persistence
backup prediction
-
分类号
TP332
[自动化与计算机技术—计算机系统结构]
-
-
题名龙芯2号处理器设计和性能分析
被引量:37
- 3
-
-
作者
胡伟武
张福新
李祖松
-
机构
中国科学院计算技术研究所计算机系统结构重点实验室
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2006年第6期959-966,共8页
-
基金
国家自然科学基金杰出青年基金项目(60325205)
国家"八六三"高技术研究发展计划重点基金项目(2002AA110010
+4 种基金
2005AA110010
2005AA119020)
国家"九七三"重点基础研究发展规划基金项目(2005CB321600)
中国科学院计算技术研究所基础研究基金项目(20056020)
中国科学院计算技术研究所知识创新课题(20056240)~~
-
文摘
介绍龙芯2号处理器设计及其性能测试结果.龙芯2号采用四发射超标量超流水结构。片内一级指令和数据高速缓存各64KB,片外二级高速缓存最多可达8MB.为了充分发挥流水线的效率,龙芯2号实现了先进的转移猜测、寄存器重命名、动态调度等乱序执行技术以及非阻塞的Cache访问和load Speculation等动态存储访问机制.龙芯2号处理器采用0.18gm的CMOS工艺实现,在正常电压下的最高工作频率为500MHz,500MHz时的实测功耗为3~5W.龙芯2号单精度峰值浮点运算速度为20亿a/秒,双精度浮点运算速度为10亿a/秒,SPECCPU2000的实测性能是龙芯1号的8~10倍,综合性能已经达到PentiumⅢ的水平.目前芯片样机能流畅运行完整的64位中文Linux操作系统,全功能的Mozilla浏览器、多媒体播放器和OpenOffice办公套件,可以满足绝大多数桌面应用的要求.
-
关键词
超标量流水线
乱序执行
转移猜测
寄存器重命名
动态调度
非阻塞的cache
load指令猜测执行
性能分析
-
Keywords
superscalar pipeline
out-of-order execution
branch prediction
register renaming
dynamical scheduling
non blocking cache
load speculation
performance analysis
-
分类号
TP302
[自动化与计算机技术—计算机系统结构]
-
-
题名基于蚁群算法的猜测符号执行的路径搜索
被引量:3
- 4
-
-
作者
李航
臧洌
甘露
-
机构
南京航空航天大学计算机科学与技术学院
-
出处
《计算机科学》
CSCD
北大核心
2018年第6期145-150,共6页
-
文摘
符号执行作为一种基本的程序分析技术,已被广泛应用于软件测试领域。研究表明,即使在现有的查询优化技术的支持下,约束求解也仍然是符号执行中最耗时的部分。猜测符号执行的思想是将多次约束求解合并成一次求解,从而减少约束求解消耗的时间。但是,猜测的成功率受猜测深度和路径搜索方向的影响,尤其是路径搜索的方向在较大程度上决定了整体猜测的成功率。因此,引导路径搜索向成功率高的方向进行,对提高猜测符号执行的整体效率至关重要。在猜测符号执行的路径搜索过程中引入蚁群算法,根据节点条件信息初次确定分支路径的权重,在多次迭代中根据分支路径的覆盖情况更新权重,通过权重决定路径搜索的方向。实验表明,该方法有效提升了猜测符号执行的效率。
-
关键词
蚁群算法
猜测符号执行
约束求解
路径搜索
-
Keywords
Antcolony algorithm
Speculative symbolic execution
Constraint solving
Path search
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-