搜索到600篇“ 统一计算架构“的相关文章
- 基于统一计算架构加速的γ能谱分析系统设计
- 2024年
- 在现代核科学与技术应用中,γ能谱分析是一种重要的技术手段,用于放射性核素的定性和定量分析。然而,传统的γ能谱分析系统在处理高通量数据时面临诸多挑战,尤其是在计算量大、处理速度慢的情况下,常常难以满足实际需求。因此,如何提高γ能谱分析的效率和准确性,成为亟待解决的问题。旨在通过设计一种基于CUDA(Compute Unified Device Architecture)加速的γ能谱分析系统,来提高γ能谱分析的处理速度与效率,从而满足高通量数据处理的需求。为此,本研究采用一种新颖的系统架构CUDA并行计算方法,利用CUDA的并行计算能力来实现γ能谱的快速处理。该系统实现谱光滑、峰值检测和核素识别等关键步骤,能够有效地处理多张能谱图。通过将这些计算任务分配到多个处理核心上,系统可以在短时间内完成传统方法所需的复杂计算从而实现计算任务的加速。此外,为了验证系统的有效性,在实际应用场景中进行多次测试,收集大量数据,以确保系统在不同条件下的稳定性和可靠性。测试结果显示:基于CUDA的γ谱分析系统在处理效率方面相比于传统的CPU计算方式,其处理效率提高数倍,系统在准确性和稳定性方面也得到保证。本研究设计的基于CUDA加速的γ谱分析系统,通过并行计算有效提高数据处理效率,满足高通量数据处理的需求,同时保持较高准确性和稳定性。
- 谢浩浩王仁波陈锐
- 关键词:CUDA系统设计
- 统一计算架构下的装配精度并行计算模型被引量:4
- 2023年
- 针对复杂装配体在多指标需求下装配精度计算效率低下的问题,提出了一种基于统一计算架构(CUDA)的多误差传递路径装配精度并行计算模型。首先,对局部并联结构进行旋量转换,得到涵盖串并联的小位移旋量(SDT)模型,在此基础上将装配特征作为误差传递单元,通过构建姿态变换和误差传递模型,分解误差传递过程,为后续并行计算提供支持;然后,对多功能需求(FR)误差传递路径按类型特征进行路径合并和误差旋量复用,减少计算量和数据生成量;最后,设计算法数据结构,根据任务需求分配线程任务、合理分配内存及降低访存时延。采用该模型对某型航发高压压气机转子的装配精度进行仿真计算,结果表明:与传统CPU模型相比,所提模型的装配精度计算速度提高了约97.3倍,能够为复杂装配体的装配精度计算和公差设计提供支持。
- 苏裕林刘浩苏琦贾康贾康
- 关键词:公差设计统一计算架构并行计算
- 基于统一计算架构的人体受照剂量实时仿真评估方法
- 2015年
- 基于统一计算架构(Compute unified device architecture,CUDA),利用GPU的流多处理器和共享显存实现了辐射环境中人体体素级受照剂量的并行计算。通过加速器驱动次临界系统散裂靶质子束窗的维修更换仿真例题的测试,百万量级体素人体受照剂量计算时间降低到10 ms的量级,能够保持与实时维修仿真同步。该方法能够满足维修仿真对维修人员的器官当量剂量和人体有效剂量计算的实时性要求,可应用到维修方案的实时仿真推演,对提高维修方案的设计与验证效率,辅助优化方案和保障人员辐射安全具有重要意义。
- 杨子辉王静何桃宋婧龙鹏程
- 关键词:并行计算统一计算架构实时仿真
- 基于边光滑三角形壳元和统一计算架构的板料成形仿真并行计算方法被引量:5
- 2012年
- 针对板料成形过程仿真中计算效率低以及四边形单元几何逼近性差的问题,提出一种基于边光滑三角形壳元(Edge-based smoothed triangular shell element,EST)和图形处理器(Graphics processing unit,GPU)的板料成形并行计算方法。根据EST壳元及板料成形过程显式求解的特点,该方法采用将最小计算单位与线程一一对应的方式进行数组的求解,同时,采用并行缩减的方法进行单值的求解,实现了整个计算过程的细粒度并行。考虑到GPU并行计算系统的特点,采用由CPU进行主控,由GPU进行数值求解的程序架构,并以统一计算架构(Compute unified device architecture,CUDA)作为GPU编程环境,编制相应的程序。通过算例表明,与传统CPU串行计算方法相比,在计算精度一致的情况下,当计算模型单元数超过20 000个时,基于GPU的并行计算方法可以获得35倍以上的计算加速比,显著减少板料成形仿真的计算时间。
- 蔡勇王琥李光耀崔向阳郑刚
- 关键词:板料成形并行计算图形处理器
- 基于GPU统一计算架构平台的实时阴影算法研究
- 近年来,计算机图形学有了巨大的发展,随着应用需求的不断增加,人们对真实感图形渲染的需求也与日俱增,其中阴影生成是不可或缺的重要方面。随着GPU处理能力不断增强,原来由CPU处理的大部分数据现在可以由GPU处理。但是,GP...
- 马晨
- 关键词:图形处理器软阴影真实感线性映射
- 文献传递
- 汇聚网络和服务器统一计算架构的网络流处理器
- 2009年
- NFP32xx系列网络流处理器采用65nm技术,由40个支持硬件多线程的可编程内核组成,运行频率达到1.4GHZ。320个硬件线程优化了存储器访问效率,可以提供每秒560亿次指令运算能力,如果以每秒处理3000万个数据包计算,将有1800条指令负责处理每一个数据包。
- 关键词:网络流处理器服务器架构汇聚
- 统一计算架构NPU支持深度包检测
- 2009年
- Netronome系统有限公司日前推出NFP32xx系列网络处理器(NPU)。这款采用65nm技术的处理器集成了多个高性能网络和安全处理内核,同时支持I/O虚拟化,是汇聚了网络和服务器统一计算架构的商用芯片。
- 刘洋
- 关键词:虚拟化NETRONOMEINTEL
- 基于GPU的椭圆曲线运算库及相关算法优化
- 2024年
- 在区块链场景下,往往需要引入数字签名、零知识证明等密码学算法以保护数据安全性与用户隐私。但由于这些算法依赖于大量的大数与椭圆曲线运算,包括范围证明在内的许多密码学算法已经成为了区块链系统的性能瓶颈。而密码学算法的GPU优化也在近几年获得了广泛的关注与研究。本文充分利用GPU作为众核处理器的优势,设计了基于GPU的椭圆曲线运算库。在运算库中,本文在GPU上实现并优化了常用的椭圆曲线运算与大数运算,同时针对不同的需求设计了不同的实现与接口。本文对寄存器与常量内存等存储空间进行了合理分配,并通过利用预计算等优化手段减少了计算量,从而最大化了运算库的吞吐与性能。为了验证运算库的实用性与有效性,本文利用该运算库实现了代理重加密与Bulletproofs范围证明的验证算法,同时充分利用了算法的内部并行性进行优化。实验表明,本文实现的运算库在各个运算中都取得了远超于OpenSSL等常用CPU端运算库的性能。基于该运算库实现的代理重加密算法相比CPU实现能达到最高145倍左右的加速比,Bulletproofs范围证明验证算法相比于CPU端实现也能达到5.57倍左右的加速效果,平均证明验证时间在1 ms内,可以满足数字货币隐私保护场景下超过每秒2000笔交易的性能需求。可见该运算库能为区块链系统隐私保护等对密码学计算具有高吞吐需求的场景提供坚实支持。
- 高钰洋张健宁王刚王刚刘晓光
- 关键词:图形处理单元统一计算架构
- 协同CPU和GPU的核密度估计及其可视化算法
- 2024年
- 大数据时代背景下,空间数据点规模越来越大,图像分辨率越来越高,使用CPU计算核密度估计结果并对其可视化的效率越来越低,难以满足应用对实时性的需求。针对该问题,提出了一种协同CPU和GPU的核密度估计及其可视化算法,该算法结合CPU的控制能力、GPU的并行计算能力以及OpenGL中的核心模式,并借助显存映射,同时优化了核密度估计的计算和可视化2方面。实验结果表明,相较于CPU并行和串行算法,该算法的执行效率分别提高了约5倍和20倍,且随着图像分辨率的提高,加速比呈现逐步上升的趋势。
- 胡森高苏蔡忠亮
- 关键词:核密度估计可视化GPUOPENGL统一计算架构
- 松耦合组件式GPU生态迁移适配系统研究
- 2023年
- 在英伟达GPU芯片进口受限的大环境下,AI-GPU算力芯片及其他算力芯片的国产化替代,是当前我国AI产业发展的必经之路。虽然当前国内各大厂商都推出了各具特色的GPU芯片,但英伟达公司在长期发展过程中构建了除算力芯片外的CUDA(Compute Unified Device Architecture,统一计算架构)软件生态,这也构成了英伟达GPU芯片的核心竞争力。
- 邓玲
- 关键词:统一计算架构GPU组件式松耦合核心竞争力AI
相关作者
- 彭蓉

- 作品数:4被引量:0H指数:0
- 供职机构:中国科学院深圳先进技术研究院
- 研究主题:图形处理单元 统一计算架构 GPU 并行计算 二叉树模型
- 桂叶晨

- 作品数:4被引量:0H指数:0
- 供职机构:中国科学院深圳先进技术研究院
- 研究主题:图形处理单元 统一计算架构 GPU 并行计算 二叉树模型
- 文高进

- 作品数:21被引量:49H指数:3
- 供职机构:中国科学院深圳先进技术研究院
- 研究主题:遗传算法 调度方法 图形处理单元 统一计算架构 数据中心
- 陈庆奎

- 作品数:283被引量:626H指数:11
- 供职机构:上海理工大学光电信息与计算机工程学院
- 研究主题:GPU集群 数据流 并行通信 CUDA GPU
- 李熙铭

- 作品数:24被引量:48H指数:4
- 供职机构:吉林大学
- 研究主题:GPU 图形处理器 统一计算架构 虚假新闻 模糊推理系统