公共文化服务平台

基于LBIST与JTAG结合的流水线测试结构设计: 随着集成电路设计技术的持续迅速发展,芯片的工作频率已提高到GHz级,微处理器的性能也已达到更高的层次。运算部件是高性能微处理器的核心部件之一,如何保障运算部件的功能和性能达到预期要求,已经成为一个相当重要的课题。然而,传...; 欧阳海燕徐长明李少青邢座程盛叶鹏; 关键词：JTAG; 文献传递

Scalability of 3D deterministic particle transport on the Intel MIC architecture被引量：1: 2015年; The key to large-scale parallel solutions of deterministic particle transport problem is single-node computation performance. Hence, single-node computation is often parallelized on multi-core or many-core computer architectures. However, the number of on-chip cores grows quickly with the scale-down of feature size in semiconductor technology. In this paper, we present a scalability investigation of one energy group time-independent deterministic discrete ordinates neutron transport in 3D Cartesian geometry(Sweep3D) on Intel's Many Integrated Core(MIC) architecture, which can provide up to 62 cores with four hardware threads per core now and will own up to 72 in the future. The parallel programming model, Open MP, and vector intrinsic functions are used to exploit thread parallelism and vector parallelism for the discrete ordinates method, respectively. The results on a 57-core MIC coprocessor show that the implementation of Sweep3 D on MIC has good scalability in performance. In addition, the application of the Roofline model to assess the implementation and performance comparison between MIC and Tesla K20 C Graphics Processing Unit(GPU) are also reported.; 王庆林刘杰龚春叶邢座程; 关键词：计算机体系结构粒子输运离散坐标法

MB64Sim:一款面向MB64体系结构的指令集模拟器: 本文以同构通用流多核体系结构处理器的单个RISC核心MB64为目标体系结构,设计实现了面向MB64的指令集模拟器MB64Sim。MB64Sim针对MB64体系结构实现了分支延迟槽和ELF文件格式等特性。实验结果显示,该模...; 唐川赵天磊唐遇星邢座程; 关键词：模拟器 SIMPLESCALAR; 文献传递

CWLP:一种在GPU中协同的线程束调度和局部性保护的高速缓存分配策略（英文）被引量：1: 2018年; 随着我们正在接近百亿亿次超级计算机的时代,一个拥有强大运算能力和低能耗的均衡的计算机系统变得越来越重要。GPUs是在最近投入运营的超级计算机中被广泛使用的加速器。它采用大规模多块程来隐藏长访存延迟,同时它拥有高能效。相对于其强大的运算能力,GPUs的每个流多核处理器只有几兆的片上资源。面向吞吐率的执行模型与它的高速缓存层次结构设计不匹配,使得GPUs缓存表现出较差的运行效率。由于片上存储器的严重缺少,受较差的缓存性能影响,GPU的计算能力急剧下降,限制了系统性能和能效。提出一种协同的线程束调度和局部性保护的缓存分配策略(CWLP),以充分利用数据局部性和隐藏延迟。首先,设计了一种基于指令PC的局部性保护方法(LPC)以提升GPU性能。使用一个基于PC的收集器收集每个高速缓存块的重用信息。在获取缓存块的动态重用信息后,采用一个智能缓存分配单元(PCAU),它结合了重用信息和LRU(最近最少使用)替换策略,以找到拥有最少局部性的缓存块并将其逐出。此外,局部性信息被线程束调度器用来实现一个智能的重排序策略,用以获取局部性和隐藏延迟。实验结果表明,CWLP能够提供高达19.8%的性能加速比和超过基准策略平均8.8%的性能提升。; Yang ZHANGZuo-cheng XINGCang LIUChuan TANG; 关键词：缓存管理保护地区 GPU 片上存储器信息协调

基于GPU的Turbo译码实现技术的研究: 的Turbo译码器是通过采用FPGA、ASIC等逻辑器件来进行实现，代价高昂，开发需要的周期较长。利用GPU进行Turbo译码的实现不仅能使译码过程具有可编程性和重复性，利用轻量级的多核可以实现大幅度的并行，而且有利于降...; 张洋原略超马虓; 关键词：并行级联卷积码译码器图形处理器并行处理能力

并行前缀加法器设计比较: 提出一种64位加法器的结构.二进制数加法是微处理器最基本的和常用到的操作.加法器的设计实现直接影响着微处理器的性能.并行前缀加法器是加快二进制数加法的通用技术,这种方法执行组间位是否产生和传播进位的逻辑功能.拟用的64位...; 张艳邢座程; 关键词：加法器二进制微处理器

基于FPGA的SPI-LPC总线桥的设计与实现: LPC(Low Pin Count)总线是一种重要的总线接口,在慢速设备中应用广泛,但许多处理器并不包含LPC总线接口,需要总线桥与LPC设备连接。本文分析了SPI和LPC两种协议的时序关系,提出数据预读技术解决总线桥无...; 葛传智邓林邢座程杨庆娜; 关键词：SPI LPC 总线桥 FPGA FLASH; 文献传递

一种基于GPU的高性能稀疏卷积神经网络优化被引量：2: 2018年; 卷积神经网络CNN目前作为神经网络的一个重要分支,相比于其他神经网络方法更适合应用于图像特征的学习和表达。随着CNN的不断发展,CNN将面临更多的挑战。CNN参数规模变得越来越大,这使得CNN对计算的需求量变得非常大。因此,目前产生了许多种方式对CNN的规模进行压缩。然而压缩后的CNN模型往往产生了许多稀疏的数据结构,这种稀疏结构会影响CNN在GPU上的性能。为了解决该问题,采用直接稀疏卷积算法,来加速GPU处理稀疏数据。根据其算法特点将卷积运算转换为稀疏向量与稠密向量内积运算,并将其在GPU平台上实现。本文的优化方案充分利用数据稀疏性和网络结构来分配线程进行任务调度,利用数据局部性来管理内存替换,使得在稀疏卷积神经网络SCNN中的GPU仍能够高效地处理卷积层运算。相比cuBLAS的实现,在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.07×～1.23×、1.17×～3.51×、1.32×～5.00×的加速比。相比cuSPARSE的实现,在AlexNet、GoogleNet、ResNet上的性能提升分别达到1.31×～1.42×、1.09×～2.00×、1.07×～3.22×的加速比。; 方程邢座程陈顼颢张洋; 关键词：卷积神经网络图形处理器

GPGPU应用程序特征分析: 多核处理器实现容易,原理简单,但是根据著名的Amdahl定律,当同类型的CPU内核个数增大到4～8个的时候,系统性能将受限于程序中必须串行的部分.片上异构多核处理器是一种新的发展趋势,对于CPU-GPU异构多核处理器来说...; 马虓王庆林张洋邢座程; 关键词：多核处理器共享资源应用程序

有用时钟偏差技术的优化与实现: 有用时钟偏差技术可以有效提高系统性能,并广泛应用在高性能芯片中。目前EDA工具已集成了有用偏差优化技术,但EDA工具自动的有用时钟偏差存在一些不足:有用时钟偏差利用不充分;有用时钟偏差的借用容易引起保持时间时序的大量违例...; 孙秀秀赵振宇邢座程夏婷婷韩雨; 文献传递

山东省滨州市滨城区黄河十二路662号电话

国家自然科学基金(61170083)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61170083)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈