公共文化服务平台

共 7 条记录，以下是 1-7

全选清除导出

排序方式：

Scalability of 3D deterministic particle transport on the Intel MIC architecture被引量：1: 2015年; The key to large-scale parallel solutions of deterministic particle transport problem is single-node computation performance. Hence, single-node computation is often parallelized on multi-core or many-core computer architectures. However, the number of on-chip cores grows quickly with the scale-down of feature size in semiconductor technology. In this paper, we present a scalability investigation of one energy group time-independent deterministic discrete ordinates neutron transport in 3D Cartesian geometry(Sweep3D) on Intel's Many Integrated Core(MIC) architecture, which can provide up to 62 cores with four hardware threads per core now and will own up to 72 in the future. The parallel programming model, Open MP, and vector intrinsic functions are used to exploit thread parallelism and vector parallelism for the discrete ordinates method, respectively. The results on a 57-core MIC coprocessor show that the implementation of Sweep3 D on MIC has good scalability in performance. In addition, the application of the Roofline model to assess the implementation and performance comparison between MIC and Tesla K20 C Graphics Processing Unit(GPU) are also reported.; 王庆林刘杰龚春叶邢座程; 关键词：计算机体系结构粒子输运离散坐标法

一种改进的用于合成孔径雷达图像相干斑抑制的双边滤波参数配置方法被引量：3: 2012年; 双边滤波能够有效光滑合成孔径雷达图像,同时保持边缘信息.最优配置双边滤波参数一直非常困难.本文作者曾提出了一种迭代参数配置方法,具有高精度、高效率的特点,但是该方法会出现迭代错误终止的情况.本文提出了一种改进的参数配置方法,能够确保获得最优折衷配置的参数,并且给出了该方法收敛性的证明.对真实合成孔径雷达图像的实验结果显示,在迭代精度相同的情况下,改进方法不仅能够获得与迭代方法相当的可视效果,而且灰度值近似方差参数具有更高的精度;随着迭代精度的提高,改进方法比迭代方法有更快的收敛速度.; 李金才黄斌彭宇行

FitenBLAS:面向FT1000微处理器的高性能线性代数库: 2015年; BLAS库是基本线性代数子程序库,是许多大型科学与工程计算的核心计算程序,FitenBLAS库是在多核多线FT1000微处理器上开发的基本线性代数库,其研制对FT1000微处理器在科学与工程计算中的应用具有重要意义.根据多级存储结构和寄存器的数目,设计了向量与向量、矩阵与向量和矩阵与矩阵运算的多级循环展开方法,采用指令调度、数据预取等通用优化技术,优化BLAS库串行程序.对于BLAS3子程序,设计了矩阵乘无冗余数据拷贝分块算法,采用指令重排、访存与计算的重叠、分块等技术优化矩阵乘子程序,基于矩阵乘子程序实现了其他BLAS3子程序.研制了汇编线性代数程库FitenBLAS,其核心子程序矩阵乘的双精度计算性能达到6.91Gflops,是峰值性能的86.4%.; 迟利华刘杰晏益慧谢林川甘新标胡庆丰蒋杰李胜国

矩阵乘法在Open SPARC T2多核处理器上的优化: 2012年; 矩阵乘法是很多应用问题的核心计算模块,在OpenSPARC T2处理器平台上,对矩阵乘法算法进行了设计优化,针对矩阵乘法访存特点,利用处理器本身8核64线程的特征,基于Open MP并行编程模型设计了矩阵乘多线程并行算法,并对访存和块大小进行了优化,采用C语言编程,对比单核单线程,并行矩阵乘算法在8核64线程的加速比达到21.9%,发挥峰值性能的53.9%。; 谢林川刘杰; 关键词：矩阵乘法多线程处理器 CACHE

大规模并行计算机系统性能测评体系被引量：2: 2013年; 复杂的大规模并行计算机系统需要能客观反映系统性能的测评方法,单个指标难以全面评价系统的性能特点。从用户需求出发,给出了大规模并行计算机系统用户适用性概念,利用适用性概念,建立了大规模系统性能测评体系,包括总体适用性、分项适用性、适用性概念、准则和Benchmark程序。整个测评体系尽量消除主观因素,做到客观定量,利用测评体系,借助性能分析数据获取工具,在得到量化的分项适用性的基础上,通过权重公式可以求出总体适用性,根据总体适用性的大小来判断不同大规模计算机系统是否满足用户的需求。; 刘杰迟利华蒋杰徐涵晏益慧胡庆丰; 关键词：性能测评大规模并行计算机系统

SSTD:基于栈帧分析的可扩展并行程序调试工具: 2013年; 设计了一个基于栈帧分析的可扩展并行调试工具SSTD,在并行程序异常退出时获取进程栈帧信息,辅助用户快速定位程序故障,提高调试效率。详细讨论了SSTD系统架构以及可扩展通信结构、进程等价类划分等关键技术。; 蒋杰方力卢凯刘杰武林平; 关键词：可扩展

基于MPI的随机数并行检验算法被引量：1: 2012年; 随机数检验是考查随机数是否具有良好随机性的方法,针对MCNP中使用的并行随机数算法,结合MPI并行编程环境设计并实现了相应的并行检验算法。实验结果表明基于MPI的并行检验算法能有效提高随机数检验速度,进程数为8时,加速比最高达到7.98,并行效率为99%。; 汪洋刘杰龚春叶; 关键词：随机数 MPI

全选清除导出

共1页<1>

国家自然科学基金(60970033)