国家自然科学基金(60736012) 作品数:43 被引量:146 H指数:7 相关作者: 范东睿 宋风龙 樊晓桠 黄小平 张浩 更多>> 相关机构: 中国科学院 中国科学院研究生院 西北工业大学 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
一种基于RAM的降低异构多核切换开销的方法 同一程序的不同执行阶段或者不同程序运行时行为特征不同.异构多核处理器包含多种类型处理器核,可以根据程序运行时的行为特征切换到性能、功耗合适的核.异构多核相对于同构多核处理器能够更好地满足性能和功耗要求,但是不同核间切换时... 刘奇 郝守青 沈海华 章隆兵关键词:寄存器重命名 支持短向量的32位快速加法器设计 2010年 研究和设计了一种面向多媒体应用的32位短向量快速加法器,该加法器以SK型并行前缀加法器为基础,通过有效控制进位链,实现了同时执行4个基于字节的加法,或者2个基于半字的加法,或者1个基于字的加法,或者1个基于单精度浮点数的比较运算.综合结果表明,此设计方法同传统的设计方法相比,电路面积接近,时序提高了10%,总体性能较优. 刘学政 张盛兵 黄小平关键词:加法器 进位链 众核处理器片上同步机制和评估方法研究 被引量:11 2010年 同步机制是片上多核/众核处理器正确执行和协同通信的关键,其效率对处理器的性能非常重要.针对片上众核体系结构,提出并实现了两种粗粒度同步机制和一种细粒度同步机制,即片上专用硬件支持的同步机制、基于原语的片上互斥访问同步机制和基于满空标志位的细粒度同步机制;提出了粗粒度同步机制的评估标准和评估方法,并设计了量化评估程序.以片上同构众核处理器Godson-T模拟器和AMDOpteron商业片上多核处理器为平台,评估比较了提出的硬件支持的同步机制与基于原语的同步机制的性能.结果表明,硬件支持可以使得片上众核处理器的同步机制性能明显提高;在传统基于原语的同步机制中,大部分性能损失是由于负载不平衡和同步点的串行化操作而造成的等待时间. 徐卫志 宋风龙 刘志勇 范东睿 余磊 张帅关键词:硬件支持 微程序 Design and analysis of a UWB low-noise amplifier in the 0.18μm CMOS process 2009年 An ultra-wideband (3.1-10.6 GHz) low-noise amplifier using the 0.18μm CMOS process is presented. It employs a wideband filter for impedance matching. The current-reused technique is adopted to lower the power consumption. The noise contributions of the second-order and third-order Chebyshev fliers for input matching are analyzed and compared in detail. The measured power gain is 12.4-14.5 dB within the bandwidth. NF ranged from 4.2 to 5.4 dB in 3.1-10.6 GHz. Good input matching is achieved over the entire bandwidth. The test chip consumes 9 mW (without output buffer for measurement) with a 1.8 V power supply and occupies 0.88 mm^2. 杨袆 高茁 杨丽琼 黄令仪 胡伟武关键词:ULTRA-WIDEBAND CMOS 众核处理器高效片上访存机制研究 日益加剧的Memory Wall问题成为限制处理器性能进一步提高的主要因素之一,片上可配置SRAM可以更灵活地发挥和利用程序访存的局部性,从而引入众核处理器的设计当中。为充分发挥这种优势,针对片上可配置SRAM的访存队列... 范灵俊 安述倩 李杨 张浩 王达 范东睿关键词:矩阵乘 超标量处理器中引入SMT技术的性能分析研究 被引量:1 2009年 同时多线程(SMT)是一种允许多个独立的线程每周期发射多条指令的技术,这种技术充分利用了可能存在的指令级并行和线程级并行,提高了有限资源的利用率。文章以西北工业大学航空微电子中心自主研发的32位超标量处理器"龙腾R2"为基础,引入SMT技术,在基本不改变内部结构大小、不增加执行功能部件、仅做一些必要修改的前提条件下进行研究。通过仿真不同的线程数和各种线程组合,进行性能分析。尽管存在制约性能提升的一些因素,引入SMT技术后依然获得了最高约50%的性能增加。 史莉雯 樊晓桠 黄小平关键词:超标量处理器 同时多线程 龙芯3号互联系统的设计与实现 被引量:23 2008年 龙芯3号的互联结构设计采用了一种基于二维Mesh的可伸缩分布式多核结构,可为芯片级、主板级和系统级的互联提供统一的拓扑结构和逻辑设计.龙芯3号的对外接口采用扩展的HyperTransport协议,既可以用于连接IO,又可以实现多芯片的互联.在龙芯3号的互联结构中还设置了软件路由配置机制,可以在板级直接构筑中等规模的CC-NUMA系统和更大规模的NCC-NUMA系统,提供高效的通信机制.介绍了基于龙芯3号的多处理器系统互联架构.采用了双层可伸缩互联结构:片内由二维Mesh连接多个结点,结点内由交叉开关连接多个处理器核和二级缓存模块.片间无需额外硬件支持即可通过支持缓存一致性的HyperTransport接口实现16核的多处理器系统.利用层次化目录技术,龙芯3号还可以支持更大规模的多处理器系统.龙芯3号的互联架构为搭建简洁、高效、灵活、高度可扩展的共享存储多处理器系统提供了有力支持. 王焕东 高翔 陈云霁 胡伟武关键词:多核 体系结构 互联 处理器 提高堆数据局部性的动态池分配技术 被引量:4 2011年 动态内存分配在现代程序中被广泛使用.通用的内存分配器通常关注于降低运行时开销和内存利用率,而在发掘所分配对象之间的特性方面有所欠缺.文中展示了一个低开销的动态优化技术"动态池分配".它在运行时构造存储形状图,从中发掘动态分配对象之间的亲缘性,把具有亲缘性的对象聚集到一段内存区域(称为内存池)里,改善了它们的数据布局.作者在实际机器上实现了动态池分配原型系统,并在GCC--O3编译的一些大量使用堆数据的SPEC 2000和2006程序上进行了测试.原型系统在两台实际机器上获得了13.1%和11.8%的平均加速比,对一些程序的加速高达82.2%.此外,作者还研究了CPU的高速缓存大小对池分配效果的影响. 王振江 武成岗 张兆庆关键词:动态优化 龙芯处理器上的TLB性能优化技术 TLB(translation look-aside buffer)是分页式虚拟存储系统用于加速虚实地址转换的必不可少的性能优化部件.TLB处于访存的关键路径上,对系统性能有着至关重要的影响.同时TLB失效开销大,是龙芯... 张晓辉 程归鹏 从明关键词:龙芯处理器 TLB 存储器模块测试系统的设计 被引量:2 2012年 存储器模块上集成有多种类型的存储器,整个模块提供一致的总线访问接口;对存储器模块进行完整的测试是很有必要的,在分析存储器模块的故障模型和测试原理的基础上,给出了一种基于数字波形发生器的存储器模块测试设备结构,通过对March算法进行扩展,设计了一种适合对存储器模块进行测试的算法结构;系统提高了测试的故障覆盖率和效率,在应用中取得了较好的效果。 杨升 高德远 杨丽君 余云关键词:存储器模块 测试系统 数字波形发生器