您的位置: 专家智库 > >

赵增

作品数:7 被引量:11H指数:2
供职机构:中国科学技术大学更多>>
发文基金:国家科技重大专项安徽省自然科学基金国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 3篇专利
  • 1篇学位论文

领域

  • 4篇自动化与计算...

主题

  • 4篇龙芯
  • 3篇神经网
  • 3篇神经网络
  • 3篇缓冲存储器
  • 3篇高速缓冲存储...
  • 3篇存储器
  • 2篇矩阵
  • 2篇矩阵乘
  • 2篇矩阵乘法
  • 2篇寄存器
  • 2篇GPGPU
  • 2篇GPU
  • 2篇乘法
  • 2篇处理器
  • 1篇软件包
  • 1篇数学库
  • 1篇体系结构
  • 1篇中央处理器
  • 1篇自适
  • 1篇自适应

机构

  • 7篇中国科学技术...
  • 1篇安徽省计算与...
  • 1篇科大讯飞股份...

作者

  • 7篇赵增
  • 6篇顾乃杰
  • 3篇张明
  • 2篇张孝慈
  • 1篇任开新
  • 1篇彭建章
  • 1篇吕亚飞
  • 1篇杨阳朝

传媒

  • 3篇小型微型计算...

年份

  • 2篇2016
  • 2篇2015
  • 2篇2014
  • 1篇2011
7 条 记 录,以下是 1-7
排序方式:
一种基于龙芯3B的自适应矩阵乘法优化方法
本发明公开了一种基于龙芯3B的自适应矩阵乘法优化方法,先将龙芯3B的乘法矩阵和被乘矩阵按分块大小不大于二级缓存的原则划分成为两个子矩阵,利用龙芯3B芯片上的直接高速缓冲存储器存取器预取列长为M宽为K的乘法矩阵到高速缓冲区...
顾乃杰赵增张孝慈张明
文献传递
基于多GPU的并行BP算法及优化被引量:3
2016年
在语音识别领域,基于深度神经网络(Deep Neural Network,DNN)的声学模型与传统的基于高斯混合模型的声学模型相比具有更出色的识别效果.DNN模型主要使用误差反向传播(Back Propagation,BP)算法进行训练.由于DNN参数规模非常庞大,使用BP算法对其训练是一个异常耗时的过程.目前主要通过高性能的GPU设备对DNN模型的训练训练进行加速.本文探究了BP训练算法在多GPU设备上并行化时所存在的收敛性和带宽问题,并结合NVIDIA Kepler架构的硬件特性提出一种并行优化策略.实验结果表明优化后的算法可以有效增加小mini-batch下的GPU利用率,同时减少数据传输的开销.在相同的mini-batch尺寸下,优化后的算法在4块NVIDIA Tesla K20m设备上与单个NVIDIA Tesla K20m设备相比可以取得高达3.89倍的加速比.
吕亚飞于振华张致江赵增顾乃杰
一种基于龙芯3B的线性系统软件包优化方法
本发明公开了一种基于龙芯3B的线性系统软件包优化方法,特征是在龙芯3B系统的实际环境中使用向量直接内存存取器,转秩模块、高速缓冲存储器锁窗口扩展部件进行优化,使得线性系统软件包进行矩阵乘加运算函数运算时取数的工作交给直接...
顾乃杰赵增彭建章张明
文献传递
VLIW DSP处理器下累加计算优化方法被引量:1
2015年
当今VLIW DSP处理器拥有的指令种类越来越多,它们大多利用单一指令来完成一组复杂的计算,从而提高相关操作的执行效率.无论是在现有数字信号处理程序中,还是使用各种优化手段之后的程序代码中,累加计算在VLIW DSP处理器运算的程序中总是频繁出现,编译器如何自动高效地识别并合成处理器特有的累加指令就变得尤为重要.提出一种VLIW DSP处理器下累加计算优化方法,算法可以自动合成目标处理器的累加指令,充分利用处理器体系结构和资源的特点.最后在BWDSP处理器上实现本文的优化算法,实验结果表明,本算法有效减小了程序累加部分的汇编代码长度,从而提高了BWDSP对累加计算的处理能力.
杨阳朝顾乃杰任开新赵增
关键词:VLIWDSP编译器
一种基于龙芯3B的自适应矩阵乘法优化方法
本发明公开了一种基于龙芯3B的自适应矩阵乘法优化方法,先将龙芯3B的乘法矩阵和被乘矩阵按分块大小不大于二级缓存的原则划分成为两个子矩阵,利用龙芯3B芯片上的直接高速缓冲存储器存取器预取列长为M宽为K的乘法矩阵到高速缓冲区...
顾乃杰赵增张孝慈张明
文献传递
基于执行—访存解耦合体系结构的优化方法研究
执行-访存解耦合(DAE)是一种用于改进处理器访存性能的体系结构,该体系结构通过分解访存和计算使得相关处理器平台拥有较高的计算-访存并发能力。当前DAE架构上的软件开发与优化存在基础库缺失、编程难度大、缺乏编程模型指导等...
赵增
关键词:GPGPU编程模型
文献传递
基于多GPU的深度神经网络训练算法被引量:8
2015年
深度学习由于出色的识别效果在模式识别及机器学习领域受到越来越多的关注.作为深度神经网络算法的重要组成部分,误差反向传播算法的执行效率已经成为制约深度学习领域发展的瓶颈.提出一种基于Tesla K10 GPU的误差反向传播算法,该算法具有负载均衡,可扩展性高的特点.本算法充分利用PCI-E3.0传输特性,并结合peer-to-peer以及异步传输的特性以降低计算任务在划分和合并过程中带来的额外开销.除此之外,文章通过对算法流程的重构,实现算法数据相关性的解耦合,从而使得有更多的计算任务可用来掩盖传输过程.实验证明,该算法拥有双卡超过1.87的并行加速比,且算法执行过程中不会引入计算误差,可有效保证训练过程中的收敛效率,拥有理想的并行加速效果.
顾乃杰赵增吕亚飞张致江
关键词:神经网络GPGPU
共1页<1>
聚类工具0