您的位置: 专家智库 > >

国家高技术研究发展计划(2012AA011004)

作品数:46 被引量:291H指数:9
相关作者:黄永峰李战怀王生进王宏志高宏更多>>
相关机构:清华大学西北工业大学哈尔滨工业大学更多>>
发文基金:国家高技术研究发展计划国家自然科学基金国家重点基础研究发展计划更多>>
相关领域:自动化与计算机技术理学电子电信医药卫生更多>>

文献类型

  • 46篇期刊文章
  • 1篇会议论文

领域

  • 44篇自动化与计算...
  • 1篇电子电信
  • 1篇医药卫生
  • 1篇理学

主题

  • 6篇大数据
  • 4篇查询
  • 3篇用户
  • 3篇数据库
  • 3篇搜索
  • 3篇索引
  • 3篇网络
  • 3篇内存
  • 3篇内存数据
  • 3篇聚类
  • 3篇可视化
  • 3篇分布式
  • 3篇MAPRED...
  • 2篇引擎
  • 2篇语义标注
  • 2篇人脸
  • 2篇时间序列
  • 2篇搜索引擎
  • 2篇图像
  • 2篇排序

机构

  • 16篇清华大学
  • 9篇西北工业大学
  • 5篇东北大学
  • 5篇哈尔滨工业大...
  • 5篇武汉大学
  • 5篇中国矿业大学
  • 2篇华中科技大学
  • 2篇武汉理工大学
  • 1篇公安部第一研...
  • 1篇甘肃农业大学
  • 1篇山西工程职业...
  • 1篇西北师范大学
  • 1篇中国航天员科...

作者

  • 9篇黄永峰
  • 8篇李战怀
  • 6篇王生进
  • 5篇彭智勇
  • 5篇高宏
  • 5篇王国仁
  • 5篇王宏志
  • 5篇陈群
  • 4篇潘巍
  • 4篇孟凡荣
  • 4篇李建中
  • 3篇王丙坤
  • 3篇刘斌
  • 2篇刘辉林
  • 2篇刘海龙
  • 2篇王立军
  • 2篇袁野
  • 2篇冯岭
  • 2篇陈盛双
  • 2篇吴刚

传媒

  • 8篇计算机研究与...
  • 7篇清华大学学报...
  • 4篇华东师范大学...
  • 3篇计算机学报
  • 3篇计算机工程与...
  • 3篇计算机应用研...
  • 3篇计算机工程与...
  • 2篇计算机应用
  • 2篇小型微型计算...
  • 2篇计算机与数字...
  • 2篇计算机与现代...
  • 1篇武汉大学学报...
  • 1篇武汉理工大学...
  • 1篇计算机工程
  • 1篇航天医学与医...
  • 1篇计算机仿真
  • 1篇警察技术
  • 1篇计算机科学

年份

  • 1篇2021
  • 1篇2017
  • 5篇2016
  • 7篇2015
  • 19篇2014
  • 10篇2013
  • 4篇2012
46 条 记 录,以下是 1-10
排序方式:
PEIF:基于并行机群的大数据实体识别算法被引量:4
2013年
数据清洗中很重要的一步是实体识别,实体识别要做到将数据与实际物体一一对应.但其中有2个问题:一个是同一个物体可能具有不同或者相似的名字,这会造成有大量重复的数据需要清理;另一个是同一个名字可能代表着不同的物体即为重名现象,这会给清洗工作带来阻碍需要识别并避免.而现有的算法大多只是解决了第1个问题,只有在EIF系统中同时解决两个问题.可是EIF系统又不适宜解决数据量较大的问题且其中的解决同一物体不同名字问题的算法有待提高.因此利用并行处理平台Hyracks设计并行算法,提出了PEIF:基于并行机群的大数据实体识别算法.此算法借助n-Gram算法辅助解决同一物体有不同名字的问题,在较短的时间内高效地对大数据进行实体识别.理论分析和实验结果表明提出的算法可以快速有效地对大数据进行实体识别.
李明达王宏志张佳程李建中高宏
关键词:大数据
基于三角不等式的时间序列相似性搜索算法被引量:3
2014年
由于传统的时序相似性度量方式不满足距离三角不等式关系,影响后续的相似性搜索及关联规则的获取,在时序符号化的基础上,提出一种满足三角不等式的符号化距离度量方式。与MINDIST_PAA_SAX和Sym_PAA_SAX度量方式进行比较,其结果表明,该度量方式在异常检测和相似性查询上具有较好的优越性。实验结果表明,该方法在相似性搜索及关联规则的获取方面具有更高的可信度。
包伟伟夏士雄牛强
关键词:时间序列符号化表示相似性搜索关联规则
基于SVMs的微博信息推送系统用户兴趣模型被引量:1
2013年
信息推送与信息提取相比,是一种更为智能、具有更高时效性的信息获取方式。利用网络信息挖掘的相关技术,对用户历史浏览的微博内容、好友结构和用户编写博文的行为等进行研究学习,将得到的用户兴趣喜好用结构化的形式保存作为用户个体的兴趣模型;同时在不断的学习过程中,针对用户行为以及浏览内容的变化,对已有的用户兴趣模型进行修改更新,使得用户能及时获知与自己兴趣相关的信息。
缪平陈盛双何云丽
关键词:信息推送
结合语义与统计的特征降维短文本聚类被引量:7
2012年
为解决文本聚类时文本的高维稀疏性问题,提出一种语义和统计特征相结合的短文本聚类算法。该算法通过语义词典对词汇的语义相关性分析实现一次降维,结合统计方法进行特征选择实现二次降维,并融合二次降维特征实现短文本聚类。实验结果表明,该算法具有较好的短文本聚类效果和效率。
杨婉霞孙理和黄永峰
关键词:聚类向量空间模型语义降维
一种鲁棒非平衡极速学习机算法被引量:2
2014年
极速学习机(ELM)算法只对平衡数据集分类较好,对于非平衡数据集,它通常偏向多数样本类,对于少数样本类性能较低。针对这一问题,提出了一种处理不平衡数据集分类的ELM模型(ELM-CIL),该模型按照代价敏感学习的原则为少数类样本赋予较大的惩罚系数,并引入模糊隶属度值减小了外围噪声点的影响。实验表明,提出的方法不仅对提高不平衡数据集中少数类的分类精度效果较明显,而且提高了对噪声的鲁棒性。
孟凡荣高春晓刘兵
关键词:极速学习机不平衡数据集神经网络
网络新词识别算法研究被引量:6
2013年
针对社交网络新词识别过程中"旧词新义"所引起的语义模糊问题,提出了网络新词识别算法。通过检测词语频度变化、共现词语分布一致性、情感倾向性迁移三项指标综合分析判断网络新词产生变化的规律特点,从而设计一种网络新词识别算法。最后以实验验证了该算法对提高现有系统网络新词识别准确率的可行性和有效性。
刘哲黄永峰罗芳陈跻王丙坤
关键词:社交网络新词识别准确率
一种不确定连续时间序列的Top-K异常检测算法被引量:2
2014年
针对噪声数据对时间序列异常检测准确性的影响问题,提出了一种不确定连续时间序列Top-K异常检测算法。在典型时间序列异常检测方法的基础上对时间序列的异常值进行区间处理,构造满足均匀分布的密度函数,结合不确定Top-K技术,实现含噪连续时间序列在分布未知情况下的Top-K异常排序。实验部分采用模拟数据和真实数据进行算法测试,算法较传统方法在异常检测的准确率方面有明显提高,虽然在计算时间上有所增加,但提出了相应的优化策略,使计算时间在k值大于5时有明显改善,验证了算法的有效性。
孟凡荣姚彦旭常玉虎闫秋艳
关键词:异常检测不确定数据
基于多粒度计算和多准则融合的情感分类被引量:5
2015年
随着在线用户生成内容的激增,无监督情感分类方法有着广泛应用前景。现有基于情感词的无监督情感分类方法没有考虑句子类型和句间关系对情感分类的影响,分类效果较差;基于自学习的无监督情感分类方法在生成伪标注数据集时,又会引入较多错误。针对上述问题,该文提出了一种基于多粒度计算和多准则融合的无监督情感分类方法。该方法通过多粒度计算,提高现有基于情感词的无监督情感分类精度;同时通过多准则融合来减少伪标注数据错误率。在3个真实中文数据集上的实验结果表明:与现有无监督情感分类方法相比,该方法平均提高了6.5%的分类精度。
王丙坤黄永峰李星
关键词:情感分类
内存数据管理技术在族谱信息系统中的应用被引量:1
2014年
设计并实现了具有数据录入、数据服务、数据输出功能的族谱信息系统.族谱信息系统采用了分布式结构,在每个分布数据节点引入内存数据管理技术,采用列存储模型,自动初始化热点数据,并根据用户请求组织数据建立索引,同时利用事务日志对每个分布数据节点的内外存进行数据同步,对中心数据节点和分布数据节点进行数据同步.
张文杰彭智勇彭煜玮
关键词:族谱分布式结构索引数据同步
数据库性能测试可视化工具VisualDBBench及面向内存数据库的应用被引量:2
2014年
从开发自动化数据库基准测试工具的角度,深入研究了TPC组织发布的TPC-C测试标准和TPC-H测试标准.在此基础上,给出了测试模型,介绍了所开发的自动化测试工具VisualDBBench的架构和主要类的功能.并且针对内存数据库进行测试,验证了内存数据库的性能优势.
李梁吴刚刘辉林王国仁
关键词:内存数据库
共5页<12345>
聚类工具0