您的位置: 专家智库 > >

金旭

作品数:10 被引量:38H指数:3
供职机构:中国科学技术大学计算机科学与技术学院更多>>
发文基金:中央高校基本科研业务费专项资金国家高技术研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 10篇中文期刊文章

领域

  • 10篇自动化与计算...
  • 1篇电子电信

主题

  • 5篇网络
  • 4篇神经网
  • 4篇神经网络
  • 4篇卷积
  • 4篇处理器
  • 3篇卷积神经网络
  • 2篇多核
  • 2篇多核处理
  • 2篇多核处理器
  • 1篇单精度
  • 1篇多示例学习
  • 1篇性能分析
  • 1篇循环神经网络
  • 1篇一对一
  • 1篇硬件
  • 1篇语音
  • 1篇语音识别
  • 1篇阵列
  • 1篇乳腺
  • 1篇乳腺癌

机构

  • 10篇中国科学技术...
  • 1篇湖北省肿瘤医...

作者

  • 10篇安虹
  • 10篇金旭
  • 2篇韩文廷
  • 1篇何杰
  • 1篇孙荪
  • 1篇邱晓杰
  • 1篇陈俊仕
  • 1篇彭毅

传媒

  • 3篇小型微型计算...
  • 3篇中国图象图形...
  • 2篇计算机工程
  • 1篇计算机研究与...
  • 1篇计算机系统应...

年份

  • 1篇2024
  • 2篇2023
  • 3篇2020
  • 1篇2019
  • 1篇2018
  • 1篇2017
  • 1篇2016
10 条 记 录,以下是 1-10
排序方式:
基于分布式模拟机制的片上网络硬件模拟系统被引量:1
2016年
针对基于现场可编程门阵列的DART模拟器可扩展性较差和模拟精度较低的问题,提出一种硬件友好的分布式模拟机制。该机制在模拟中采用隐式同步方法,以节点内计数器和节点间缓冲队列取代集中式控制器,将时序同步和计数任务交给每个节点自行处理,从而提高模拟速度。基于该机制,设计并实现片上网络硬件模拟系统。实验结果表明,该系统能达到与业界权威BookSim模拟器同级别的模拟精度,模拟速度可达BookSim模拟器的200倍,相比DART模拟器能获得21%的速度提升,并且具有较好的扩展性。
彭毅安虹金旭程亦超迟孟贤孙荪
关键词:片上网络分布式模拟现场可编程门阵列多核处理器
循环神经网络在语音识别模型中的训练加速方法被引量:9
2018年
深度神经网络目前已被广泛应用于众多领域.尤其在自然语言处理领域,基于循环神经网络的模型训练效果明显优于其他传统方法.然而模型复杂度不断提高,有限存储空间成为进一步训练大规模任务的瓶颈,例如使用图形处理器(GPU)进行加速训练.本文提出一种基于语音识别模型,对循环神经网络进行训练加速的有效方法.首先,基于输入训练集序列的长度分布,对每一批训练样本进行划分,并重新组织;其次,通过对GPU显存的高效使用,每一批次训练样本数增多,从而提升计算效率,减少训练时间.本文分别从不同的批样本数及不同序列组织方法,通过对比单位时间处理序列数衡量优化效果.实验表明,基于3层循环神经网络的语音识别模型训练中,单GPU训练可达到1. 7倍加速比.
冯诗影韩文廷金旭迟孟贤安虹
关键词:循环神经网络语音识别GPU
2D级联CNN模型的放疗危及器官自动分割被引量:1
2020年
目的精准的危及器官(organs at risk,OARs)勾画是肿瘤放射治疗过程中的关键步骤。依赖人工的勾画方式不仅耗费时力,且勾画精度容易受图像质量及医生主观经验等因素的影响。本文提出了一种2D级联卷积神经网络(convolutional neural network,CNN)模型,用于放疗危及器官的自动分割。方法模型主要包含分类器和分割网络两部分。分类器以VGG(visual geometry group)16为骨干结构,通过减少卷积层以及加入全局池化极大地降低了参数量和计算复杂度;分割网络则是以U-Net为基础,用双线性插值代替反卷积对特征图进行上采样,并引入Dropout层来缓解过拟合问题。在预测阶段,先利用分类器从输入图像中筛选出包含指定器官的切片,然后使用分割网络对选定切片进行分割,最后使用移除小连通域等方法对分割结果进一步优化。结果本文所用数据集共包含89例宫颈癌患者的腹盆腔CT(computed tomography)图像,并以中国科学技术大学附属第一医院多位放射医师提供的手工勾画结果作为评估的金标准。在实验部分,本文提出的分类器在6种危及器官(左右股骨、左右股骨头、膀胱和直肠)上的平均分类精度、查准率、召回率和F1-Score分别为98.36%、96.64%、94.1%和95.34%。基于上述分类性能,本文分割方法在测试集上的平均Dice系数为92.94%。结论与已有的CNN分割模型相比,本文方法获得了最佳的分割性能,先分类再分割的策略能够有效地避免标注稀疏问题并减少假阳性分割结果。此外,本文方法与专业放射医师在分割结果上具有良好的一致性,有助于在临床中实现更准确、快速的危及器官分割。
石军赵敏帆薛旭东郝晓宇金旭安虹张红雁
关键词:卷积神经网络宫颈癌
主流卷积神经网络的硬件设计与性能分析
2020年
作为深度学习领域中最具有影响力的网络结构之一,卷积神经网络朝着更深更复杂的方向发展,对硬件计算能力提出了更高的要求,随之出现了神经网络专用处理器.为了对这类处理器进行客观比较,并指导软硬件优化设计,本文针对卷积神经网络提出了宏基准测试程序和微基准测试程序.其中,宏基准测试程序包含主流的卷积神经网络模型,用于处理器性能的多方位评估和对比;微基准测试程序包含卷积神经网络中的核心网络层,用于细粒度定位性能瓶颈并指导优化.为了准确描述这套基准测试程序在真实硬件平台上的性能表现,本文选取了I/O等待延迟、跨节点通信延迟和CPU利用率3大系统性能评测指标以及IPC、分支预测、资源竞争和访存表现等微架构性能评测指标.基于评测结果,本文为处理器的硬件设计与架构改进提出了可靠建议.
徐青青安虹武铮金旭
关键词:卷积神经网络网络层基准测试程序性能分析微体系结构
针对SW26010众核处理器的单精度矩阵乘算法
2023年
矩阵乘作为许多科学应用中被频繁使用的关键部分,其计算量巨大且稠密的本质,使得高性能计算领域中矩阵乘并行算法的研究一直是经久不衰的热门话题.随着我国自主研发的申威众核处理器SW26010在科学计算和人工智能领域的快速发展,对面向SW26010众核处理器的高性能矩阵乘算法提出了迫切的需求.针对SW26010众核处理器的体系结构特征,首次对单精度矩阵乘实现进行了深入探讨,提出了3种不同存储层次的高性能并行算法.在进行算法设计时,计算方面,结合该处理器的从核双流水,从汇编层面手动控制核心计算任务的指令序列,保证了高效的指令级并行;访存方面,综合考虑了有限片上存储资源的有效使用,以及访存任务和计算任务的交叉并行,实现了计算访存的平衡以及算法整体性能的提升.实验结果显示,与该处理器上最先进的官方数学库xMath中的单精度矩阵乘实现相比,运行时峰值性能提升了6.8%,达到了理论峰值性能的86.17%;在基于不同矩阵乘场景的通用性比较中,95.33%的场景中性能更高,最高性能加速比达到247.9%,平均性能加速比为61.66%.
武铮许乐安虹金旭文可
关键词:矩阵乘计算机系统结构
申威26010众核处理器上Winograd卷积算法的研究与优化被引量:1
2024年
卷积作为深度学习中被频繁使用的关键部分,其并行算法的研究已成为高性能计算领域中的热门话题.随着我国自主研发的申威26010众核处理器在人工智能领域的快速发展,对面向该处理器的高性能并行卷积算法提出了迫切的需求.针对申威26010处理器的架构特征以及Winograd卷积算法的计算特性,提出了一种高性能并行卷积算法——融合Winograd卷积算法.该算法不同于依赖官方GEMM(general matrix multiplication)库接口的传统Winograd卷积算法,定制的矩阵乘实现使得该算法的执行过程变得可见,且能够更好地适应现实中常见卷积运算.整个算法由输入的Winograd变换、卷积核的Winograd变换、核心运算和输出的Winograd逆变换4部分构成,这4个部分并不是单独执行而是融合到一起执行.通过实时地为核心运算提供需要的变换后数据,并将计算结果及时地逆变换得到最终的输出数据,提高了算法执行过程中的数据局部性,极大地降低了整体的访存开销.同时,为该算法设计了合并的Winograd变换模式、DMA(direct memory access)双缓冲、片上存储的强化使用、输出数据块的弹性处理以及指令重排等优化方案.最终的实验结果表明,在VGG网络模型的总体卷积测试中,该算法性能是传统Winograd卷积算法的7.8倍.同时,抽取典型卷积神经网络模型中的卷积进行测试,融合Winograd卷积算法能够在所有的卷积场景中发挥明显高于传统Winograd卷积算法的性能.其中,最大能够发挥申威26010处理器峰值性能的116.21%,平均能够发挥峰值性能的93.14%.
武铮金旭安虹
功耗受限情况下多核处理器能效优化方案被引量:3
2017年
将处理器功耗控制在预算以下有助于降低散热成本和提升系统稳定性,但现有功耗优化方案大多依赖线下分析得到的先验知识,影响实用性,而集中式搜索最优策略的算法也存在复杂度过高的问题。为此,提出功耗优化方案PPCM。利用动态电压频率调整(DVFS)技术控制CPU功耗在预算内以提高处理器能效。同时,将功耗控制和功耗分配解耦合以提高灵活性。采用动态调整的线性模型估计功耗,通过反馈控制技术对其进行调节。以计算访存比为指标在应用间分配功耗,并考虑多线程应用特征进行线程间功耗分配。实验结果表明,PPCM比Priority算法速度平均提高10.7%,能耗平均降低5.1%,能量-延迟积平均降低14.3%。与PCM CA算法相比,其速度平均提高4.5%,能量-延迟积平均降低5.0%。
邱晓杰安虹陈俊仕迟孟贤金旭
关键词:功耗控制
深度学习在组织病理学中的应用综述被引量:17
2020年
组织病理学是临床上肿瘤诊断的金标准,直接关系到治疗的开展与预后的评估。来自临床的需求为组织病理诊断提出了质量与效率两个方面的挑战。组织病理诊断涉及大量繁重的病理切片判读任务,高度依赖医生的经验,但病理医生的培养周期长,人才储备缺口巨大,病理科室普遍超负荷工作。近年来出现的基于深度学习的组织病理辅助诊断方法可以帮助医生提高诊断工作的精度与速度,缓解病理诊断资源不足的问题,引起了研究人员的广泛关注。本文初步综述深度学习方法在组织病理学中的相关研究工作。介绍了组织病理诊断的医学背景,整理了组织病理学领域的主要数据集,重点介绍倍受关注的乳腺癌、淋巴结转移癌、结肠癌的病理数据及其分析任务。本文归纳了数据的存储与处理、模型的设计与优化以及小样本与弱标注学习这3项需要解决的技术问题。围绕这些问题,本文介绍了包括数据存储、数据预处理、分类模型、分割模型、迁移学习和多示例学习等相关研究工作。最后总结了面向组织病理学诊断的深度学习方法研究现状,并指出当下研究工作可能的改进方向。
金旭文可吕国锋石军迟孟贤武铮安虹
关键词:组织病理学卷积神经网络多示例学习
利用OpenCL设计并优化FPGA上的全连接神经网络被引量:5
2019年
随着深度学习神经网络的发展,FPGA上的神经网络开发获得了广泛关注.本文利用Intel FPGA提供的OpenCL SDK,在FPGA板卡上设计并实现了完整的全连接神经网络的前向模型,并针对基准系统中的存储瓶颈,通过分组划分、数据复用、优化激活函数、单指令多数据流、浮点数半精化等策略进行优化,平衡了系统中的资源占用情况,扩大了电路规模,提升了系统性能;优化后的版本与基准版本相比,得到了2. 19x的加速.优化后,系统的主频达到380MHz,RAM占用率达到94%,DSP占用率达到42%.
周鑫安虹迟孟贤金旭韩文廷
关键词:FPGAOPENCL
CentroidNet:轻量快速的乳腺癌Ki67细胞核中心点检测模型被引量:1
2023年
目的Ki67分数是乳腺癌预后评估的重要指标,计算该分数的关键步骤是检测阴性与阳性癌细胞核。人工检测面临疲劳与主观差异的问题。卷积神经网络有望实现高质量、自动化的细胞核检测,然而需要病理专家为其标注细胞核。为了减轻标注的工作量,不少研究者提出以中心点标注训练卷积神经网络。然而这些方法采用过于复杂的卷积神经网络和后处理流程,未能充分提高易用性和效率、发挥卷积神经网络的质量。对此,提出CentroidNet模型,旨在提高中心点检测的质量、效率和易用性。方法CentroidNet模型在图像上放置均匀排布的锚点,为每个锚点预测一个候选点,一部分候选点通过基于阈值的筛选策略成为预测点。本文提出最近锚点匹配策略用于生成训练标签,既保证了端到端推理,又规避了其他一对一标签匹配算法所具有的标签抖动问题。本文建议锚点间距应尽可能接近训练集答案点间最短距离的第一百分位数,并指出这样的锚点间距能够在前景标签数、坐标回归难度与效率之间取得良好的平衡。本文在设计卷积神经网络的结构时,没有采纳广为使用的U-Net或特征金字塔(feature pyramid network,FPN)中的多级上采样与旁路连接,反而提高了质量和效率。结果本文在BCData数据集上评估CentroidNet模型的质量与效率。BCData是目前规模最大的、公开的乳腺癌Ki67癌细胞核中心点检测数据集。在质量方面,CentroidNet取得的综合F1分数为0.8791,媲美当前的最高质量。在效率方面,CentroidNet的推理速度为12.96 ms/幅、显存占用为138.8 MB/幅,达到了当前最高的效率,远低于若干主流或最新的模型。结论CentroidNet具有高质量、高效率和高易用性;与现有同类模型相比,进一步提高了乳腺癌Ki67细胞核中心点检测的可行性。
文可金旭安虹何杰王珏
关键词:乳腺癌锚点
共1页<1>
聚类工具0