公共文化服务平台

国家自然科学基金(61120106005): 作品数：13 被引量：29H指数：3; 相关作者：卢宇彤周恩强董勇张伟曹宏嘉更多>>; 相关机构：国防科学技术大学中山大学中国人民解放军91550部队更多>>; 发文基金：国家自然科学基金国家高技术研究发展计划更多>>; 相关领域：自动化与计算机技术理学更多>>

并行作业启动及其可扩展性分析被引量：1: 2013年; 随着高性能计算机系统与并行应用规模的不断增加,大规模并行作业的启动时间不能再被忽略不计.已有的研究给出了在Tianhe-1A系统上加载MPI作业的性能结果.通过分析作业启动在控制消息传递、文件访问、MPI环境初始化等各阶段的时间开销,发现对于大规模MPI作业而言,环境初始化时间是作业启动的主要开销.基于此发现进行了一些优化,减少MPI环境初始化时交换的数据量,并避免不必要的数据传输开销.显著地提高了并行作业启动的性能.进而提出了一种层次式的可扩展进程管理结构,以进一步增强作业启动的可扩展性.与其他主流MPI实现的进程管理机制的作业启动时间进行了比较.; 曹宏嘉卢宇彤谢旻周恩强; 关键词：进程管理 MPI 可扩展性

对象存储并行文件系统小文件性能优化研究被引量：2: 2013年; 对象存储并行文件系统在高性能计算领域被广泛采用,虽然大文件访问性能优异,但其小文件访问存在局限性。通过分析典型对象存储并行文件系统下的小文件的访问开销,采用服务端小文件专用缓存和基于对象命名关联性预取的方法提高小文件的缓存命中率,降低对象存储架构下小文件的读取延迟。基于Lustre并行文件系统实现了该方法。实际系统测试表明,该方法可显著提高小文件访问性能,其中小文件打包性能提升最大可达88%。; 周恩强董勇张伟卢宇彤; 关键词：并行文件系统缓存

MDSLB:A new static load balancing method for parallel molecular dynamics simulations被引量：1: 2014年; Large-scale parallelization of molecular dynamics simulations is facing challenges which seriously affect the simula- tion efficiency, among which the load imbalance problem is the most critical. In this paper, we propose, a new molecular dynamics static load balancing method （MDSLB）. By analyzing the characteristics of the short-range force of molecular dynamics programs running in parallel, we divide the short-range force into three kinds of force models, and then pack- age the computations of each force model into many tiny computational units called ＂cell loads＂, which provide the basic data structures for our load balancing method. In MDSLB, the spatial region is separated into sub-regions called ＂local domains＂, and the cell loads of each local domain are allocated to every processor in turn. Compared with the dynamic load balancing method, MDSLB can guarantee load balance by executing the algorithm only once at program startup without migrating the loads dynamically. We implement MDSLB in OpenFOAM software and test it on TianHe-lA supercomputer with 16 to 512 processors. Experimental results show that MDSLB can save 34%-64% time for the load imbalanced cases.; 武云龙徐新海杨学军邹顺任小广

FTRP:a new fault tolerance framework using process replication and prefetching for high-performance computing: 2018年; As the scale of supercomputers rapidly grows, the reliability problem dominates the system availability. Existing fault tolerance mechanisms, such as periodic checkpointing and process redundancy, cannot effectively fix this problem. To address this issue, we present a new fault tolerance framework using process replication and prefetching （FTRP）, combining the benefits of proactive and reactive mechanisms. FTRP incorporates a novel cost model and a new proactive fault tolerance mechanism to improve the application execution efficiency. The novel cost model, called the ＇work-most＇（WM） model, makes runtime decisions to adaptively choose an action from a set of fault tolerance mechanisms based on failure prediction results and application status. Similar to program locality, we observe the failure locality phenomenon in supercomputers for the first time. In the new proactive fault tolerance mechanism, process replication with process prefetching is proposed based on the failure locality, significantly avoiding losses caused by the failures regardless of whether they have been predicted. Simulations with real failure traces demonstrate that the FTRP framework outperforms existing fault tolerance mechanisms with up to 10% improvement in application efficiency for common failure prediction accuracy, and is effective for petascale systems and beyond.; Wei HUGuang-ming LIUYan-huang JIANG; 关键词：PROACTIVE LOCALITY PROCESS REPLICATION PROCESS PREFETCHING

多准则赋权排序与C-SVM相结合的特征选择算法被引量：6: 2018年; 数据挖掘中所获取的数据维数多,常常导致数据存储所需容量大,知识挖掘所需时间长,预测正确率不高等问题,特征选择是解决上述问题的重要方法之一。针对现有特征选择算法最佳特征个数难以确定及分类准确率有待进一步提高等问题,提出一种同时考虑相关性和冗余度的多准则赋权排序的算法(m CRC),m CRC结合两种准则同时对特征进行排序,并利用C-SVM对按重要性降序排好的特征采用顺序前向浮动搜索得出最佳特征子集。实验结果表明,m CRC算法与单独基于互信息或类别可分性赋权排序的特征选择方法相比能在更短的时间内获得分类性能更好的最佳特征子集,为快速并高效地对数据集进行挖掘提供了有力保障。; 孙勤孙勤蒋艳凰胡维张毅

面向异构体系结构的GA模型拓展被引量：1: 2017年; 科学与工程应用对计算性能要求的不断增加使得异构计算得到了迅速发展,然而CPU与加速单元之间没有共享内存的特点增加了异构编程难度,编程人员必须显式地指定数据在不同设备之间的传递情况.全局数组(global arrays,GA)模型基于聚合远程内存拷贝接口(ARMCI)为分布式存储系统提供异步单边通信、共享内存的编程环境,但ARMCI接口拓展的复杂性使得GA不能根据特定计算平台的特点迅速在该平台上实现.CoGA模型是对GA模型的异构拓展,旨在为CPU+英特尔至强融核(MIC)的异构系统提供全局数组结构,隐藏数据传输细节从而简化异构编程难度.CoGA基于MIC上的对称传输接口(SCIF)实现对CPU和MIC的内存管理,并结合SCIF远程内存访问特点优化CPU与MIC间的数据传输性能.最后,通过数据传输带宽、通信延迟和稀疏矩阵乘问题的测试,证明了CoGA简化编程并优化数据传输性能的有效性和实用性.; 程鹏卢宇彤高涛王晨旭; 关键词：异构计算编程模型

Storage wall for exascale supercomputing被引量：3: 2016年; The mismatch between compute performance and I/O performance has long been a stumbling block as supercomputers evolve from petaflops to exaflops. Currently, many parallel applications are I/O intensive,and their overall running times are typically limited by I/O performance. To quantify the I/O performance bottleneck and highlight the significance of achieving scalable performance in peta/exascale supercomputing, in this paper, we introduce for the first time a formal definition of the ‘storage wall' from the perspective of parallel application scalability. We quantify the effects of the storage bottleneck by providing a storage-bounded speedup,defining the storage wall quantitatively, presenting existence theorems for the storage wall, and classifying the system architectures depending on I/O performance variation. We analyze and extrapolate the existence of the storage wall by experiments on Tianhe-1A and case studies on Jaguar. These results provide insights on how to alleviate the storage wall bottleneck in system design and achieve hardware/software optimizations in peta/exascale supercomputing.; Wei HUGuang-ming LIUQiong LIYan-huang JIANGGui-lin CAI

基于天河2高速互连网络实现混合层次文件系统H^2FS高速通信被引量：7: 2017年; 高效通信性能是影响并行文件系统性能与效率的重要因素.该文基于TH-2系统的高性能互连网络——天河2高速互连网络(TH-Express 2),设计并实现了混合层次文件系统H^2FS中的高速通信模块FSE.FSE采用了TH-Express 2的短报文通信MP和远程内存访问RDMA相结合的方式,实现客户端与ION的通信.FSE采用基于动态链表的内存注册池减少通信延迟,提高通信效率.基于可变信用的流量控制,FSE有效降低系统出现拥塞的可能性,提高系统的可扩展性和稳定性.为了充分利用多核处理器的并发处理能力以及多RDMA引擎的传输能力,FSE对报文传输和数据处理功能采用了多维多线程方式,提高数据访问带宽.FSE的自适应端点管理针对通信端点容错能力设计,提高了系统弹性,有助于增强系统稳定性.FSE实现优化了数据传输效率,实现了低延迟、高带宽、高可扩展数据访问.在两个不同实际系统上的测试结果表明,FSE可以充分发掘TH-Express 2的特性,点点数据访问带宽可达8.6Gbps,使得H^2FS具有较高的数据访问带宽和元数据性能,并具有良好的可扩展性.同基于TCP的通信模块实现相比,FSE的读写延迟可低至55%和20%,最大单ION写性能是其3.3倍;同Lustre文件系统相比,FSE更好地利用了高速网的特性来获取较高性能,写延迟可低至其28.6%.; 董勇周恩强卢宇彤张伟; 关键词：FSE

一种面向大规模数据密集计算的缓存方法被引量：4: 2015年; 随着高性能计算机逐步应用在大规模数据处理领域,存储系统将成为制约数据处理效率的主要瓶颈.在分析了影响数据密集型计算I/O性能若干关键因素的基础上,提出使用计算结点本地存储构建协作式非易失缓存、以分布式存储架构加速集中式存储架构的方法.该方法基于应用层协同使用分布化的本地存储资源,使用非易失存储介质构成大缓存空间,存放大规模数据分析的中间过程结果,以此实现高缓存命中率,并利用并发度约束控制等手段避免I/O竞争,充分利用本地存储的特定性能优势保证缓存加速效果,从而有效地提高了大规模数据处理过程的I/O效率.基于多平台多种I/O模式的测试结果证实了该方法的有效性,聚合I/O带宽具有高扩展性,典型数据密集应用的整体性能最大可提升6倍.; 周恩强张伟卢宇彤侯红军董勇; 关键词：缓存共享存储地震数据处理

面向分层混合存储架构的协同式突发缓冲技术被引量：3: 2015年; 科学计算产生和分析的数据规模日益增长,高性能计算机的存储系统在体系架构和软件管理方法上面临重大挑战。针对天河-2系统的新型分层混合存储架构,提出一种由应用程序耦合的协同式突发缓冲技术来有效利用其存储资源优势。该方法采用运行时动态耦合的方法,将临近计算任务的分布式高速存储资源聚合成为一个的巨大的协同式突发缓冲区,通过采用文件命名空间投影的映射方法组织全局数据视图,利用位置亲和和感知数据意图的方法来挖掘空间局部性和时间局部性,并利用应用并发度感知的策略优化数据移动效率。天河-2系统的测试结果表明,该方法能够有效优化多种典型应用场景,可获得高可扩展的突发并行输出带宽和稳定的持续并行输出带宽,可显著提升数据分析场景的输入/输出性能,适合应用于大规模超级计算机的存储系统。; 周恩强张伟董勇卢宇彤; 关键词：超级计算机存储架构并行文件系统

国家自然科学基金(61120106005)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(61120106005)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈