期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于MRAM的新型存内计算范式
1
作者 杨茜 王远博 +1 位作者 王承智 常亮 《集成电路与嵌入式系统》 2024年第6期29-40,共12页
存内计算(CIM,Computing in Memory)是一种为缓解“内存墙”和“功耗墙”而出现的新兴架构。因CPU处理器和存储器速度发展不均衡性,冯·诺依曼架构这类中央处理器与存储器分离的结构逐渐失去其优越性。存内计算提出以计算和存储相... 存内计算(CIM,Computing in Memory)是一种为缓解“内存墙”和“功耗墙”而出现的新兴架构。因CPU处理器和存储器速度发展不均衡性,冯·诺依曼架构这类中央处理器与存储器分离的结构逐渐失去其优越性。存内计算提出以计算和存储相结合的方式来减少数据的搬移,极大地提升了计算效率。MRAM作为最有潜力的新一代非易失存储器件,被视为构建高效存内计算架构的有力候选者。以MRAM为基础构建的存内计算根据计算过程的不同可分为MRAM模拟存内计算和MRAM数字存内计算。数字存内计算又可以根据数字逻辑产生的方式分为MRAM写入式存内计算、MRAM读取式存内计算以及MRAM近存计算。MRAM模拟存内计算利用高并行度摊销能耗,在单位面积上,吞吐量和能效都具有数字存内计算无法比拟的优势,但也因其易受PVT影响等特征在实际应用中有所限制。MRAM数字存内计算实现方式多样,写入式存内计算几乎消除了存储器外的数据搬移,虽然当前工艺下的MRAM所需的翻转能耗和时延过大,导致该方式一直停留在仿真阶段,但不妨碍该存内计算是缓解“内存墙”最有效的手段之一;读取式存内计算严重依赖于读取放大器的功能设计,在相关领域有所发展,但所受限制较大;近存计算是当前MRAM非易失器件和CMOS电路在计算速度和计算能效差异较大的情况下,融合两者优势的优解,在实际应用中具有巨大的益处。 展开更多
关键词 MRAM 存内计算 人工智能处理器 计算范式 内存墙
下载PDF
基于PCIE的多嵌入式人工智能处理器低延迟数据交换技术
2
作者 魏璇 温凯林 +3 位作者 李斌 刘淑涛 褚洁 蔡觉平 《电子科技》 2024年第5期32-37,46,共7页
针对多嵌入式人工智能(Artificial Intelligence,AI)处理器板卡之间的任务调度和数据交换冲突以及提高多板卡堆叠扩展时的可靠性和运行效率问题,文中提出了一种虫洞交换结构多嵌入式人工智能处理器高速数据交换技术和数据帧结构的解决... 针对多嵌入式人工智能(Artificial Intelligence,AI)处理器板卡之间的任务调度和数据交换冲突以及提高多板卡堆叠扩展时的可靠性和运行效率问题,文中提出了一种虫洞交换结构多嵌入式人工智能处理器高速数据交换技术和数据帧结构的解决方法。该方法基于PCIE(PCI Express)高速数据接口,将数据以数据单元的形式进行信息传递,并设计多重权重决策算法避免数据传输中的冲突,实现任务的并发多线程处理。搭建FPGA(Field Programmable Gate Array)平台进行设计和测试,结果表明PCIE的传输带宽利用效率达到了85%以上,数据交换延迟小于20μs,系统中断任务响应平均最大延迟时间为8.775μs。该技术适用于多处理器协同的高速交换电路,可扩展至混合PCIE和RapidIO交换电路结构。 展开更多
关键词 嵌入式人工智能处理器 数据交换 外围组件互连快速 PCI Express 交换开关 虫洞技术 数据仲裁 多重权重决策
下载PDF
基于国产PuDianNao芯片的向量函数库优化
3
作者 杨指政 杜子东 文渊博 《郑州大学学报(工学版)》 CAS 北大核心 2023年第1期31-37,共7页
目前国产人工智能处理器PuDianNao芯片上的向量数学函数只能依靠循环调用标量函数来实现,该方法性能比较低。基于PuDianNao芯片提出了3种优化方法。方法一为插值方法;方法二为SIMD加掩码方法;方法三基于PuDianNao的硬件阵列结构,使用VLI... 目前国产人工智能处理器PuDianNao芯片上的向量数学函数只能依靠循环调用标量函数来实现,该方法性能比较低。基于PuDianNao芯片提出了3种优化方法。方法一为插值方法;方法二为SIMD加掩码方法;方法三基于PuDianNao的硬件阵列结构,使用VLIW指令操作阵列中的每个处理单元,封装出SIMT编程模型,提出了暴露分支范围和分支扁平化的编程方法。对以上3种方法进行精度和性能测试,对比实验结果表明,方法三具有最好的精度和性能。使用方法三实现基于国产PuDianNao芯片的向量数学函数库PuDianNao-VecMath,解决了数学函数多分支结构难以向量化的难题。该函数库精度性能较好、功能稳定、运行正确,提供的接口包括取整函数、超越函数、比较函数、激活函数等常见基础数学库函数。在精度上,将函数定义域区间全数据作为输入,运算结果和标量函数在CPU i7运行的结果进行对比。结果表明,单精度版本最大ULP值为2,半精度版本最大ULP值为1。性能与使用标量循环相比有较大提高,单精度版本相对于标量循环平均加速比平均值为18.26,最大加速比为35.90;半精度版本平均加速比平均值为15.65,最大加速比为30.11。 展开更多
关键词 向量化函数 PuDianNao-VecMath 国产人工智能处理器 暴露分支范围和分支扁平化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部