您的位置: 专家智库 > >

张帅

作品数:4 被引量:14H指数:3
供职机构:南开大学更多>>
发文基金:国家自然科学基金国家教育部博士点基金天津市自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 4篇自动化与计算...

主题

  • 2篇计算统一设备...
  • 2篇架构
  • 2篇GPU
  • 1篇异构
  • 1篇异构计算
  • 1篇异构计算环境
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇射频识别
  • 1篇随机数
  • 1篇碰撞
  • 1篇谱聚类
  • 1篇谱聚类算法
  • 1篇无线射频
  • 1篇无线射频识别
  • 1篇细粒度
  • 1篇向量
  • 1篇向量机
  • 1篇消息传递接口
  • 1篇接口

机构

  • 4篇南开大学

作者

  • 4篇杨愚鲁
  • 4篇张帅
  • 4篇李涛
  • 2篇王艺峰
  • 1篇赵瑞思
  • 1篇王恺
  • 1篇刘学臣

传媒

  • 2篇计算机研究与...
  • 1篇计算机工程与...
  • 1篇计算机工程

年份

  • 3篇2015
  • 1篇2012
4 条 记 录,以下是 1-4
排序方式:
RFID动态标签估计防碰撞算法被引量:4
2012年
针对无线射频识别(RFID)过程中标签之间的碰撞问题,提出一种新的RFID防碰撞算法。利用二进制碰撞算法动态地估计一部分将要被识别的标签数,通过标签生成的随机数对其进行分组,并识别该部分标签。实验结果表明,该算法能有效减少冲突发生的概率,识别标签的效率为42.5%-42.8%。
赵瑞思李涛张帅杨愚鲁
关键词:无线射频识别防碰撞二进制标签估计随机数
CPU-GPU异构计算环境下的并行T近邻谱聚类算法被引量:3
2015年
谱聚类是数据挖掘领域最常用的聚类算法之一,但对于如何利用多核CPU与资源有限的众核加速器设计并实现一个在异构单节点上能够处理大规模数据集的高效谱聚类算法,目前尚无理想的解决方案.PSCH(parallel spectral clustering for hybrids)算法是专为CPU-GPU异构计算环境设计的并行T近邻(T-nearest-neighbors,TNN)谱聚类算法,通过分块计算相似性矩阵打破了GPU设备内存的限制,所能处理的数据集规模仅受限于CPU主存的容量.PSCH算法中使用CUDA设计实现双缓冲轮转4段流水机制,通过重叠计算与传输在打破存储瓶颈的同时保证了高计算性能.PSCH算法采用隐式重启动Lanczos方法(implicitly restarted Lanczos method,IRIM)在异构硬件上计算稀疏特征矩阵的特征分解,减轻了特征分解步骤的计算瓶颈.PSCH算法在配有一块GTX 480GPU的单节点上能够对百万以上规模的数据集进行聚类,并对实验中的4个数据集取得了相对于使用16进程的MPI并行谱聚类PSC算法2.0~4.5倍的性能.
张帅李涛焦晓帆王艺峰杨愚鲁
关键词:谱聚类计算统一设备架构
细粒度任务并行GPU通用矩阵乘被引量:5
2015年
稠密线性代数运算对模式识别和生物信息等许多实际应用至关重要,而通用矩阵乘(GEMM)处于稠密线性代数运算的基础地位。在cuBLAS与MAGMA中,GEMM被实现为若干kernel函数,对大型GEMM计算能够达到很高的性能。然而,现有实现对批量的小型GEMM计算性能发挥则较为有限。而且,现有实现也不能在多个具有不同性能的GPU之间自动扩展并达到负载均衡。提出任务并行式GEMM(TPGEMM),用细粒度任务并行的方式实现批量矩阵乘和多GPU矩阵乘。一个或多个GEMM的计算能够被拆分为多个任务,动态地调度到一个或多个GPU上。TPGEMM避免了为批量矩阵乘启动多个kernel函数的开销,对批量矩阵乘能够取得显著高于cuBLAS与MAGMA的性能。在低开销细粒度任务调度的基础上,TPGEMM支持单个GEMM计算在多个GPU间的自动并行,在一台具有四个不同性能GPU的工作站上取得了接近100%的扩展效率。
张帅李涛王艺峰焦晓帆杨愚鲁
关键词:负载均衡
基于混合编程模型的支持向量机训练并行化被引量:2
2015年
支持向量机(support vector machine,SVM)是一种广泛应用于统计分类以及回归分析的监督学习方法.基于内点法(interior point method,IPM)的SVM训练具有空间占用小、迭代趋近快等优点,但随着训练数据集规模的增大,仍面临处理速度与存储空间所带来的双重挑战.针对此问题,提出利用CPU-GPU异构系统进行大规模SVM训练的混合并行机制.首先利用计算统一设备架构(compute unified device architecture,CUDA)对基于内点法的SVM训练算法的计算密集部分并行化,并改进算法使其适合利用cuBLAS线性代数库加以实现,提高训练速度;然后利用消息传递接口(message passing interface,MPI)在集群系统上实现CUDA加速后算法的分布并行化,利用分布存储有效地增加所处理数据集规模并减少训练时间;进而基于Fermi架构支持的页锁定内存技术,打破了GPU设备存储容量不足对数据集规模的限制.结果表明,利用消息传递接口(MPI)和CUDA混合编程模型以及页锁定内存数据存储策略,能够在CPU-GPU异构系统上实现大规模数据集的高效并行SVM训练,提升其在大数据处理领域的计算性能和应用能力.
李涛刘学臣张帅王恺杨愚鲁
关键词:计算统一设备架构消息传递接口
共1页<1>
聚类工具0