国家重点基础研究发展计划(2007CB310901) 作品数:29 被引量:103 H指数:6 相关作者: 王志英 沈立 戴葵 肖侬 陆洪毅 更多>> 相关机构: 国防科学技术大学 中国人民解放军66356部队 同济大学 更多>> 发文基金: 国家重点基础研究发展计划 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 更多>>
解同步电路中的功耗优化方法 被引量:1 2010年 针对解同步方法设计的异步电路存在冗余功耗的问题,提出一种功耗优化的解同步异步电路设计方法.首先以迭代结构乘法器为例分析操作数及电路操作行为对异步流水线功耗的影响;然后将窄数据特性及操作行为特性引入到解同步设计方法中,其中窄数据特性用于优化数据通路,操作行为特性用于优化控制通路;最后采用该方法对异步传输触发体系结构(TTA)微处理器计算内核进行功耗优化设计.实验结果表明,结构优化后的异步TTA微处理器内核功耗明显减少,约为解同步异步内核功耗的60%. 石伟 沈立 任洪广 苏博 王志英关键词:功耗优化 面向众核GPU结构的椭圆曲线加密流化技术 被引量:2 2011年 针对椭圆曲线加密系统的加密速度不能满足实时性要求的现状,分析了椭圆曲线加密机制(Elliptic Curve Cryptography,ECC)潜在的并行性,研究了GPU众核多线程及共享存储空间和只读Cache对ECC性能提升的影响,提出了以GPU强大计算资源和有效的存储带宽来流化加速ECC的方法。实验结果显示,在支持计算统一设备架构(Computing Unified Device Architecture,CUDA)的GPU上流化实现的ECC原型系统与优化的CPU实现相比可获得高达66×的加速度比。另外,针对ECC的流化并行及优化技术可作为一般方法推广至其它流体系结构。 甘新标 沈立 王志英关键词:GPU 椭圆曲线加密 计算统一设备架构 面向特定应用的计算加速器虚拟化 2011年 近年来,专用指令集处理器(application specific instruction set processor,ASIP)在嵌入式系统中得到了越来越广泛的应用.这些ASIP提供了面向某个领域定制硬件计算加速器的功能.通过利用加速器提供的扩展指令,可以大幅提升ASIP面向领域的处理能力.然而,这些计算加速器只能加速那些在编译时加入了扩展指令的应用程序.对于在编译时没有加入扩展指令的应用而言,得不到任何性能提升.利用软件动态二进制翻译来解决这一问题,即将计算加速器虚拟化.与传统的静态编译方法所不同的是,以动态虚拟化方式利用计算加速器面临许多新的问题.针对这些问题,提出了一系列解决方法,并用实验加以验证. 陈莉丽 沈立 王志英 肖侬 姚益平关键词:动态二进制翻译 虚拟化 专用指令集处理器 一种低成本128位高精度浮点SIMD乘加单元的设计与实现 2012年 SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。 黄立波 王志英 沈立 马胜关键词:单指令多数据 指令扩展中相关子图的分析与处理 2009年 由于没有充分考虑候选子图间重叠、包含等相关关系,按照现有指令扩展方法选出的扩展指令可能无法带来预期的性能收益.详细讨论了子图相关关系和处理方法,并提出相应的指令扩展算法.在子图识别时,根据延迟约束合并相互包含的子图,根据重叠结点的位置合并重叠子图,缩小搜索空间;在子图压缩时,根据子图相关关系动态地调整候选子图的性能收益,减少相关子图引起的估算误差.此外,还根据剩余候选子图的性能收益对时间与精度进行折中.该算法已在传输触发结构ASIP的自动设计流程中实现,实际性能加速比与预期值的平均误差仅为0.17%,远低于原先的3.6%. 沈立 张晨曦 吕雅帅 王志英关键词:专用指令集处理器 SIMD数据置换操作的自动生成和优化 2011年 SIMD指令能够高效开发数据级并行,因此当前绝大多数通用微处理器都支持这种机制。但是应用程序和算法的一些固有特性,如访存地址不对齐、非连续存储访问以及控制流等,使得编译器或程序员必须借助置换指令重新组合向量的各个元素,才能得到符合SIMD指令要求的操作数。这些冗余的置换指令已成为当前挖掘数据级并行的主要性能瓶颈。提出一种自动的数据置换指令生成和优化算法,以有效地减少置换指令带来的性能损失。该算法基于提出的一种新中间表示形式,其中包含有足够的操作数地址信息,因此可以将置换指令的生成转换为数据流图中冲突边的识别问题,而将置换指令的优化转化为用最少的置换指令来删除所有冲突边的问题。面向一组典型多媒体程序进行测试的结果表明,提出的算法可平均获得7%的性能加速。 陈向 沈立 李家文关键词:数据置换 支持线程级猜测的存储体系结构设计 被引量:2 2012年 在线程级猜测中进行数据依赖相关检测时,存在Cache一致性协议无法容忍线程切换引起的Cache块替换等问题。为此,通过分析推测线程数据管理模型,结合推测线程切概率低的特点,提出一种分布-共享式恢复缓冲区结构。该结构在进行Cache一致性检验时结合作废向量和版本优先级寄存器进行数据依赖检测,利用L2 Cache进行推测数据缓冲和恢复以支持推测线程切换。修改SESC模拟器以验证和评估该存储体系结构。实验结果表明,在保持模拟器理想加速比的情况下,该存储体系结构可以较好地支持推测线程切换。 赖鑫 刘聪 王志英关键词:CACHE一致性协议 同步数据触发体系结构中指令预取技术研究 被引量:1 2009年 同步数据触发体系结构SDTA将传统指令级并行细化到微操作级并行,具有较高的数据处理能力,但其特殊的指令格式及指令特性,给指令Cache访问带来了挑战。指令预取技术能够有效地降低指令Cache的访问失效率,增强处理器取指能力,提高性能。本文分析了SDTA指令集特性,提出了一种适合SDTA指令集特性的软硬件相结合的混合指令预取机制,采用硬件预取引擎和软件提示相结合进行预取。该方法能够有效地提高指令Cache命中率,且具有实现简单、无效预取率低、不会增加代码体积等特点。 郭建军 戴葵 王志英关键词:指令预取 虚拟机备份机制研究 被引量:9 2009年 虚拟机是近年来的学术研究热点,其为客户操作系统提供了底层物理机器的抽象,是构成虚拟计算环境的核心之一。本文介绍了虚拟机的备份机制,具体介绍了常用虚拟机备份方法,虚拟机监视器VMM层次的快照、克隆、记录日志、迁移等备份方法以及大型数据中心的备份机制。本文比较了客户操作系统层次、VMM层次、虚拟机外部三个层次的虚拟机备份方法,总结了存在的问题,并探讨了未来的发展趋势。 褚福勇 肖侬 蔡志平 陈彬关键词:虚拟机 备份 快照 迁移 基于现场保存与恢复的双核冗余执行模型 2009年 本文提出了基于现场保存与恢复的双核冗余软错误恢复执行模型DCR。该执行模型在两个冗余的内核上执行相同的线程,并对store指令进行比较。本文对每个内核增加了硬件实现的现场保存与恢复机制,在检测到软错误以后可以恢复到上一现场保存点继续执行。实验结果表明,与传统的软错误恢复执行模型CRTR相比,DCR执行模型对核间通信带宽的需求降低了57.5%。在发生软错误的情况下,DCR能够恢复99.69%的软错误。 龚锐 戴葵 王志英关键词:多核