您的位置: 专家智库 > >

国家自然科学基金(60970033)

作品数:7 被引量:7H指数:2
相关作者:刘杰蒋杰迟利华晏益慧胡庆丰更多>>
相关机构:国防科学技术大学怀化学院并行与分布处理国防科技重点实验室更多>>
发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术电子电信理学更多>>

文献类型

  • 7篇中文期刊文章

领域

  • 5篇自动化与计算...
  • 1篇电子电信
  • 1篇理学

主题

  • 2篇计算机
  • 2篇处理器
  • 1篇代数
  • 1篇多核
  • 1篇多核处理
  • 1篇多核处理器
  • 1篇多线程
  • 1篇多线程处理
  • 1篇多线程处理器
  • 1篇性能测评
  • 1篇用户
  • 1篇双边滤波
  • 1篇随机数
  • 1篇体系结构
  • 1篇微处理器
  • 1篇线程
  • 1篇线性代数
  • 1篇相干斑
  • 1篇相干斑抑制
  • 1篇离散坐标法

机构

  • 5篇国防科学技术...
  • 1篇北京应用物理...
  • 1篇怀化学院
  • 1篇并行与分布处...

作者

  • 5篇刘杰
  • 3篇蒋杰
  • 2篇胡庆丰
  • 2篇晏益慧
  • 2篇迟利华
  • 2篇谢林川
  • 1篇武林平
  • 1篇彭宇行
  • 1篇甘新标
  • 1篇龚春叶
  • 1篇徐涵
  • 1篇方力
  • 1篇黄斌
  • 1篇李金才
  • 1篇汪洋
  • 1篇卢凯
  • 1篇李胜国

传媒

  • 2篇计算机工程与...
  • 1篇物理学报
  • 1篇湖南大学学报...
  • 1篇电脑知识与技...
  • 1篇Nuclea...
  • 1篇数字技术与应...

年份

  • 2篇2015
  • 2篇2013
  • 3篇2012
7 条 记 录,以下是 1-7
排序方式:
Scalability of 3D deterministic particle transport on the Intel MIC architecture被引量:1
2015年
The key to large-scale parallel solutions of deterministic particle transport problem is single-node computation performance. Hence, single-node computation is often parallelized on multi-core or many-core computer architectures. However, the number of on-chip cores grows quickly with the scale-down of feature size in semiconductor technology. In this paper, we present a scalability investigation of one energy group time-independent deterministic discrete ordinates neutron transport in 3D Cartesian geometry(Sweep3D) on Intel's Many Integrated Core(MIC) architecture, which can provide up to 62 cores with four hardware threads per core now and will own up to 72 in the future. The parallel programming model, Open MP, and vector intrinsic functions are used to exploit thread parallelism and vector parallelism for the discrete ordinates method, respectively. The results on a 57-core MIC coprocessor show that the implementation of Sweep3 D on MIC has good scalability in performance. In addition, the application of the Roofline model to assess the implementation and performance comparison between MIC and Tesla K20 C Graphics Processing Unit(GPU) are also reported.
王庆林刘杰龚春叶邢座程
关键词:计算机体系结构粒子输运离散坐标法
一种改进的用于合成孔径雷达图像相干斑抑制的双边滤波参数配置方法被引量:3
2012年
双边滤波能够有效光滑合成孔径雷达图像,同时保持边缘信息.最优配置双边滤波参数一直非常困难.本文作者曾提出了一种迭代参数配置方法,具有高精度、高效率的特点,但是该方法会出现迭代错误终止的情况.本文提出了一种改进的参数配置方法,能够确保获得最优折衷配置的参数,并且给出了该方法收敛性的证明.对真实合成孔径雷达图像的实验结果显示,在迭代精度相同的情况下,改进方法不仅能够获得与迭代方法相当的可视效果,而且灰度值近似方差参数具有更高的精度;随着迭代精度的提高,改进方法比迭代方法有更快的收敛速度.
李金才黄斌彭宇行
FitenBLAS:面向FT1000微处理器的高性能线性代数库
2015年
BLAS库是基本线性代数子程序库,是许多大型科学与工程计算的核心计算程序,FitenBLAS库是在多核多线FT1000微处理器上开发的基本线性代数库,其研制对FT1000微处理器在科学与工程计算中的应用具有重要意义.根据多级存储结构和寄存器的数目,设计了向量与向量、矩阵与向量和矩阵与矩阵运算的多级循环展开方法,采用指令调度、数据预取等通用优化技术,优化BLAS库串行程序.对于BLAS3子程序,设计了矩阵乘无冗余数据拷贝分块算法,采用指令重排、访存与计算的重叠、分块等技术优化矩阵乘子程序,基于矩阵乘子程序实现了其他BLAS3子程序.研制了汇编线性代数程库FitenBLAS,其核心子程序矩阵乘的双精度计算性能达到6.91Gflops,是峰值性能的86.4%.
迟利华刘杰晏益慧谢林川甘新标胡庆丰蒋杰李胜国
矩阵乘法在Open SPARC T2多核处理器上的优化
2012年
矩阵乘法是很多应用问题的核心计算模块,在OpenSPARC T2处理器平台上,对矩阵乘法算法进行了设计优化,针对矩阵乘法访存特点,利用处理器本身8核64线程的特征,基于Open MP并行编程模型设计了矩阵乘多线程并行算法,并对访存和块大小进行了优化,采用C语言编程,对比单核单线程,并行矩阵乘算法在8核64线程的加速比达到21.9%,发挥峰值性能的53.9%。
谢林川刘杰
关键词:矩阵乘法多线程处理器CACHE
大规模并行计算机系统性能测评体系被引量:2
2013年
复杂的大规模并行计算机系统需要能客观反映系统性能的测评方法,单个指标难以全面评价系统的性能特点。从用户需求出发,给出了大规模并行计算机系统用户适用性概念,利用适用性概念,建立了大规模系统性能测评体系,包括总体适用性、分项适用性、适用性概念、准则和Benchmark程序。整个测评体系尽量消除主观因素,做到客观定量,利用测评体系,借助性能分析数据获取工具,在得到量化的分项适用性的基础上,通过权重公式可以求出总体适用性,根据总体适用性的大小来判断不同大规模计算机系统是否满足用户的需求。
刘杰迟利华蒋杰徐涵晏益慧胡庆丰
关键词:性能测评大规模并行计算机系统
SSTD:基于栈帧分析的可扩展并行程序调试工具
2013年
设计了一个基于栈帧分析的可扩展并行调试工具SSTD,在并行程序异常退出时获取进程栈帧信息,辅助用户快速定位程序故障,提高调试效率。详细讨论了SSTD系统架构以及可扩展通信结构、进程等价类划分等关键技术。
蒋杰方力卢凯刘杰武林平
关键词:可扩展
基于MPI的随机数并行检验算法被引量:1
2012年
随机数检验是考查随机数是否具有良好随机性的方法,针对MCNP中使用的并行随机数算法,结合MPI并行编程环境设计并实现了相应的并行检验算法。实验结果表明基于MPI的并行检验算法能有效提高随机数检验速度,进程数为8时,加速比最高达到7.98,并行效率为99%。
汪洋刘杰龚春叶
关键词:随机数MPI
共1页<1>
聚类工具0