孙辉 作品数:10 被引量:38 H指数:4 供职机构: 中国人民大学信息学院 更多>> 发文基金: 国家自然科学基金 国家重点基础研究发展计划 中央高校基本科研业务费专项资金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
程序设计课程实践探索--在线评测系统的设计与应用 程序设计是计算机类课程的一门专业基础课,对这门课进行了改革,将教学重点从语法语句转到培养学生计算思维上来。同时开发了在线评测系统,学生通过该系统可以进行上机练习、在线考试等。该教学思想和在线评测系统的开发应用极大地促进了... 焦敏 孙辉 李博放关键词:程序设计 在线评测 计算思维 ALFHJ:一种面向众核协处理器的自适应无锁哈希连接算法 2017年 众核协处理器因其良好的并行计算能力和能源效率,正成为当前高性能计算普遍采用的加速设备.无划分哈希连接算法是多核平台上一种简单高效的连接算法,但随着众核上并发线程数的增加,其共享哈希表的锁同步问题正成为算法并行化的瓶颈.为解决上述问题,该文提出一种面向众核协处理器的自适应无锁哈希连接算法ALFHJ.该算法通过评估数据集的潜在冲突度动态调整算法参数及处理流程,支持基于CAS(比较与交换)原子操作的无锁共享哈希表构建,并利用SIMD指令进行哈希表探测.同时,该文进行了热点代码分析,讨论了一致性问题、ABA问题以及收敛性问题.在Xeon Phi上的实验结果表明,相比最新的基于锁同步的NPO(优化的无分区哈希连接)算法,ALFHJ算法有以下两点优势:(1)在提高哈希表空间利用率的同时,更能保持性能的相对稳定;(2)并行执行时间对于均匀数据集减少约10%,对于倾斜数据集减少约30%~50%. 周开来 周开来 陈红 孙辉 李翠平关键词:协处理器 基于多核学习支持向量机的音乐流派分类 被引量:8 2015年 针对不同特征向量下选择最优核函数的学习方法问题,将多核学习支持向量机(MK-SVM)应用于音乐流派自动分类中,提出了将最优核函数进行加权组合构成合成核函数进行流派分类的方法。多核分类学习能够针对不同的声学特征采用不同的最优核函数,并通过学习得到各个核函数在分类中的权重,从而明确各声学特征在流派分类中的权重,为音乐流派分类中特征向量的分析和选择提供了一个清晰、明确的结果。在ISMIR 2011竞赛数据集上验证了提出的基于多核学习支持向量机(MKL-SVM)的分类方法,并与传统的基于单核支持向量机的方法进行了比较分析。实验结果表明基于MKL-SVM的音乐流派自动分类准确率比传统单核支持向量机的分类准确率提高了6.58%,且该方法与传统的特征选择结果比较,更清楚地解释了所选择的特征向量对流派分类的影响大小,通过选择影响较大的特征组合进行分类,分类结果也有了明显的提升。 孙辉 许洁萍 刘彬彬关键词:多核学习 支持向量机 模式识别 一种带稀疏间隙约束的并行模式匹配算法 被引量:4 2018年 带通配符的模式匹配是一个经典的研究问题,带有可变间隙约束的模式匹配是近年来比较热门的研究方向.为适应某些查询精度要求较高的应用领域,提出一种在稀疏间隙约束条件下求解模式匹配完备解的算法SGPM-SAI(pattern matching with sparse gaps constraint based on suffix automaton index).SGPM-SAI通过对文本串预处理,建立一种称为W-SAM的图索引结构,然后对模式串分段查找End Pos集合,最后以集合归并求交的方法得到模式匹配的完备解.实验结果表明:在不考虑预处理时间的情况下,相比几种最典型的模式匹配算法(KMP,BM,AC,suffixarray),SGPM-SAI算法性能优势显著,至少高出3~5倍.通过与SAIL算法的最新优化版本(SAIL-Gen)进行比较,在稀疏间隙约束条件下,SGPM-SAI的性能要显著优于SAIL-Gen算法.此外,为有效利用现代处理器的大规模并行处理单元,提出了并行优化后的算法Parallel SGPM-SAI.实验结果表明:Parallel SGPM-SAI算法的加速效果显著,且具有良好的并行可扩展性,能够充分利用现代众核处理器的高并行计算优势. 周开来 陈红 熊子绎 李翠平 孙辉关键词:通配符 MOOC实验教学平台建设 实验教学在高校教学体系中占有非常重要的地位,在MOOC技术不断发展的背景下,所开发的MOOC实验教学平台提供了各种实验资源,并且可以让学生在线完成实验.MOOC实验教学平台的开发应用提升了学生学习的积极性和实践动手能力,... 焦敏 孙辉 张延松关键词:高等教育 计算机学科 实验教学平台 文献传递 k-近邻模糊粗糙集的快速约简算法研究 被引量:4 2015年 目前有很多粗糙集的推广模型通过引入参数的方法处理含有噪音的实际问题。基于粗糙集推广模型的约简算法可以发现保持信息含量不变的最小属性子集,但是其明显的不足是计算不同参数上的约简时,每次都要从头开始执行。将嵌套结构的理论结果应用于k-近邻模糊粗糙集的快速约简算法设计中,并利用嵌套结构,设计了一个基于已有约简的快速约简算法。该算法的特点是在参数改变时,不必重新运行经典的算法,而是利用已有的约简来计算新的约简。数值实验验证了快速约简算法可以显著地节省运行时间,表明了该算法的可行性和有效性。 张照星 范星奇 赵素云 陈红 李翠平 孙辉关键词:属性约简 基于Supersonic的并行分组聚集 2016年 针对在分析型联机分析处理(OLAP)应用中频繁出现的数据密集型操作符——分组聚集耗时较多的问题,提出Cache友好的分组聚集算法对该操作进行性能优化。首先,为充分发挥列存储在数据密集型计算方面的优势,采用基于开源的列存储查询执行引擎Supersonic,并在此之上设计Cache友好的分组聚集算法;其次,为加速查询的执行,使用并行技术,将单线程的分组聚集算法改为多线程并行的分组聚集算法。基于Supersonic设计并实现4种并行分组聚集算法:无共享Hash表并行分组聚集(NSHPGA)算法、表锁共享Hash表并行分组聚集(TLSHPGA)算法、桶锁共享Hash表并行分组聚集(BLSHPGA)算法、节点锁共享Hash表并行分组聚集(NLSHPGA)算法,且在不同的分组势集、不同的线程数的情况下,针对上述4种算法做了多组实验。通过对比3种不同粒度的共享Hash表并行分组聚集算法的加速比,得出NLSHPGA算法在加速比和并发度两方面表现最好,部分查询可达到10倍加速比;通过比较NSHPGA算法和NLSHPGA算法的加速比、Cache miss内存使用等情况,得出NLSHPGA算法在分组势集大于8时,加速比超过NSHPGA算法,并且Cache miss更低,使用的内存更少。 张兵 孙辉 范旭 李翠平 陈红 王雯关键词:SUPERSONIC 基于现代硬件的并行内存排序方法综述 被引量:11 2017年 研究了现代硬件上的并行内存排序方法,对其研究现状与进展进行了综述.首先简要阐述了经典排序算法以及排序网络的优缺点,分析其并行优化的适用性,然后从现代CPU处理器设备(多核、配备大内存)、图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)等新型处理器设备介绍现有排序方法的研究成果.处理器设备的架构不同,对排序算法的优化策略也不同,现代CPU主要利用线程的本地存储层次优化数据在存储单元中的排列,以减少访存次数及减少访存缺失,同时利用单指令多数据流技术(SIMD),以提高算法的数据级并行度;GPU则需要将多个线程组织成线程块,依靠共享内存提高线程块的访存速度,而在线程块内则使用单指令多线程(SIMT)技术提高线程的执行效率;FPGA则更靠近于硬件底层,受到自身的资源限制,FPGA的优化策略主要依靠硬件描述语言或高级综合语言优化电路的设计,提高资源利用率的同时增加FPGA的吞吐量.现有的成果表明,GPU的并行内存排序性能优于CPU端上的并行内存排序性能.作者最后对未来的研究方向进行了展望. 郭诚欣 陈红 孙辉 李翠平 吴天贞关键词:图形处理器 现场可编程逻辑门阵列 Spark平台下的短文本特征扩展与分类研究 被引量:9 2017年 短文本分类经常面临特征维度高、特征稀疏、分类准确率差的问题。特征扩展是解决上述问题的有效方法,但却面临更大的短文本分类效率瓶颈。结合以上问题和现状,针对如何提升短文本分类准确率及效率进行了详细研究,提出了一种Spark平台上的基于关联规则挖掘的短文本特征扩展及分类方法。该方法首先采用背景语料库,通过关联规则挖掘的方式对原短文本进行特征补充;其次针对分类过程,提出基于距离选择的层叠支持向量机(support vector machine,SVM)算法;最后设计Spark平台上的短文本特征扩展与分类算法,通过分布式算法设计,提高短文本处理的效率。实验结果显示,采用提出的Spark平台上基于关联规则挖掘的短文本特征扩展方法后,针对大数据集,Spark集群上短文本特征扩展及分类效率约为传统单机上效率的4倍,且相比于传统分类实验,平均得到约15%的效率提升,其中特征扩展及分类优化准确率提升分别为10%与5%。 王雯 赵衎衎 李翠平 陈红 孙辉关键词:关联规则 统计粗糙集 被引量:2 2016年 现有的模糊粗糙集方法,由于其基础理论复杂度的桎梏,无法应用到大规模数据集上.考虑到随机抽样是一种可以极大地减少运算量的统计学方法,将随机抽样引入到经典的模糊粗糙集理论中,建立了一种统计粗糙集模型.首先,提出了统计上、下近似的概念,它相比经典模糊粗糙集模型的优势在于,以随机抽样得到的小容量样本代替了大规模全集,从而显著降低了计算量.而且,随着全集数量的增大,抽样样本数量并不会显著增大.此外,还讨论了统计上、下近似的性质,揭示统计上、下近似和经典上、下近似之间的关系.并且,提出了一个定理,该定理保证了统计下近似与经典下近似的取值统计误差在允许的范围内.最后,通过数值实验验证了统计下近似在计算时间上的显著优势. 陈俞 赵素云 陈红 李翠平 孙辉关键词:近似算子 模糊粗糙集