国家高技术研究发展计划(2012AA011003) 作品数:52 被引量:973 H指数:15 相关作者: 程学旗 史忠植 管晓宏 张博 张建华 更多>> 相关机构: 中国科学院 中国科学院大学 西安交通大学 更多>> 发文基金: 国家高技术研究发展计划 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 电气工程 电子电信 更多>>
高可扩展的RDF数据存储系统 被引量:9 2012年 由于资源描述框架(resource description framework,RDF)具有表达灵活、简洁等优点,已被接受为表达元数据及万维网上数据互联的规范.近年来,其数据量在以飞快的速度增长.相应地,要求存储RDF数据的系统应具有高扩展性.介绍了一个高可扩展的RDF数据存储系统TripleBit.为尽可能降低存储空间消耗,采用了增量压缩和变长整数编码方法.并采用了数据分块的存储方法,既使得存储管理方便又使得存储结构紧凑,加速了数据读取.系统提供了基于启发式规则的动态查询计划生成方法,所产生的查询计划在执行过程中根据中间结果会相应作调整,以保持最优的执行顺序.对于多变量的查询,使用二步执行策略以减少查询过程中产生的中间结果.与目前流行RDF数据存储系统相比较,在存储空间上RDF-3X比TripleBit至少多40%;在查询性能上,比RDF-3X和MonetDB获得数倍的提升. 袁平鹏 刘谱 张文娅 吴步文关键词:资源描述框架 数据编码 查询处理 查询计划 面向网络舆情数据的异常行为识别 被引量:22 2016年 社交网络的日益普及和移动设备快捷的网络接入,使得网络舆情的传播十分迅捷,民众对热点话题的关注度和参与度得到很大的提升.网络舆情具有自由性、交互性、多元性、偏差性、突发性等特点,能够左右民众的情感和判断,能推动和改变事件的发展和走向,容易被反对分子利用,已经成为影响社会稳定的重要因素.因此,及时检测、控制并引导舆情的发展具有十分重要的意义.研究关注网络中传播的蕴含有"破坏"、"危险"、"损失"等涉及公共安全或涉及司法公正的行为.根据课题的需要,定义4种关注的异常行为类型:攻击行为、受伤行为、死亡行为、拘捕行为.从数据挖掘和信息抽取的角度研究识别异常行为的方法,首先通过分类器和触发词从海量的数据中过滤出包含异常行为的句子,然后抽取异常行为句中包含的命名实体,最后利用抽取的实体构建异常行为共现网络,为分析人员提供可视化的网络舆情分析方法. 郝亚洲 郑庆华 陈艳平 闫彩霞关键词:网络舆情 事件抽取 异常行为识别 数据挖掘 基于可穿戴设备感知的智能家居能源优化 被引量:15 2016年 智能家居能源优化作为智能电网在居民侧的延伸是智能家居领域的重要分支.智能家居能源优化的目标是通过优化调度家居用电设备,满足用户的舒适需求和降低用电费用.其中,用户舒适度与人的行为密切相关,具有很强的主观性和不确定性,对用户行为及舒适度需求的分析是智能家居能源管理系统中的难点.因此提出了一种基于可穿戴设备传感数据分析的智能家居能源优化方法,主要包括:基于可穿戴设备传感器数据实时分析用户行为;利用神经网络建立用户行为到舒适度需求的映射,更新用户的舒适度需求;建立家居系统动态模型,并基于智能家居环境传感器数据对模型参数进行动态估计;提出基于模型预测控制(model predictive control,MPC)的智能家居能源优化求解方法.同时开发了智能家居能源优化的原型系统,通过搭建的智能家居实验平台,设计了4种典型用户行为情景,验证了所提方法对智能家居经济性和舒适性的提升. 陈思运 刘烃 沈超 苏曼 高峰 徐占伯 师嘉悦 贾战培关键词:智能家居 用户行为分析 智能电网 网络大数据计算技术与应用综述 被引量:18 2013年 网络大数据蕴含着丰富的社会信息,可以看作是对真实社会的网络映射。分析网络大数据并发现其中所暗含的线索与规律,可以帮助人们更好地感知现在、预测未来。本文简要介绍了国内外有关网络大数据的战略布局,总结了网络大数据计算技术研究面临的挑战,并从网络大数据计算的架构体系以及网络大数据的感知与表示、内容建模与语义理解等方面分析了研究现状。最后,通过实例对网络大数据将带来的新型应用进行了展望。 程学旗 王元卓 靳小龙基于Hadoop云平台的并行数据挖掘方法 被引量:38 2013年 业界已经开始运用云平台来处理海量高维数据,将各种异构系统仿真为一个系统,其中在Hadoop环境进行数据挖掘会遇到数据模型的全局性、HDFS的文件随机写操作、数据生命周期短等问题。为解决这些问题,在Hadoop上实现高效海量数据挖掘,提出了在Hadoop上一种高效数据挖掘框架,利用数据库来模拟链表结构,管理挖掘出来的知识,提供了树形结构、图模型的分布式计算方法;在此基础上实现一个统计算法——Yscore分箱算法,以及决策树和KD树的建树算法;并利用Vega云对Hadoop集群进行仿真。实验数据表明该框架和算法实用可行,且可能拓展与数据挖掘之外的其他领域。 杨来 史忠植 梁帆 齐保元关键词:并行数据挖掘 决策树算法 JPA 安全云存储系统与关键技术综述 被引量:177 2013年 随着云存储的迅猛发展,越来越多的用户选择使用云存储存放自己的资料.云存储的最大特点在于存储即服务,用户可以通过公有API将自己的数据上传到云端保存.但由于用户丧失了对数据的绝对控制权,一些数据安全的隐患也由此产生.为了消除安全隐患,并在保证安全性的同时尽可能地提高系统的服务质量,近年来国内外机构作了大量研究,从而开启了云存储中的一个研究方向——安全云存储系统.首先介绍了云存储系统的安全需求,然后阐述了安全云存储系统的研究现状,并总结了现有安全云存储系统中的一些关键技术的现状与不足之处,其中包括密钥分发与管理、基于属性的加密机制、基于数据密文的搜索机制与删冗机制、数据的持有性证明与恢复以及数据的可信删除等;最后指出了安全云存储系统未来的研究方向. 傅颖勋 罗圣美 舒继武关键词:数据安全 密钥管理 面向中文网络百科的语义知识库构建 被引量:5 2016年 传统的语义知识库构建耗费了大量的人力物力,而且知识难以做到及时的更新。针对这些不足,以语义本体和超图理论为基础,提出了新的语义表达模型:动态知识网络,并且阐述了该模型的理论基础和组成要素。在模型的指导下,面向中文360百科,研究了语义知识的抽取方法和存储结构,半自动构建了中文语义知识库,为面向语义的中文信息处理提供知识支持。 刘剑 许洪波 唐慧丰 贾岩涛 程学旗关键词:语义知识库 超图 Exploiting PLSA model and conditional random field for refining image annotation 被引量:1 2015年 This paper presents a new method for refining image annotation by integrating probabilistic la- tent semantic analysis (PLSA) with conditional random field (CRF). First a PLSA model with asymmetric modalities is constructed to predict a candidate set of annotations with confidence scores, and then model semantic relationship among the candidate annotations by leveraging conditional ran- dom field. In CRF, the confidence scores generated lay the PLSA model and the Fliekr distance be- tween pairwise candidate annotations are considered as local evidences and contextual potentials re- spectively. The novelty of our method mainly lies in two aspects : exploiting PLSA to predict a candi- date set of annotations with confidence scores as well as CRF to further explore the semantic context among candidate annotations for precise image annotation. To demonstrate the effectiveness of the method proposed in this paper, an experiment is conducted on the standard Corel dataset and its re- sults are 'compared favorably with several state-of-the-art approaches. 田东平可扩展的网页关键信息抽取研究 被引量:3 2015年 该文提出了一种可扩展的网页关键信息抽取框架。该框架很好地融合了模板无关的全自动信息抽取算法和基于模板的信息抽取算法,从本质上提高抽取精度和抽取效率。该框架中的一些关键环节可根据需求进行替换,因此该框架具有很好的可扩展性。同时,该文还提出了模板的正交过滤算法。将该算法引入基于模板的抽取算法中,能够从本质上提高生成的模板的准确性。实验结果验证了上述结论。 郭少华 郭岩 李海燕 刘悦 张瑾 程学旗关键词:信息抽取 电子商务商品归一化方法研究 被引量:10 2014年 电子商务网站中不断增长的商品数量和商品规模对数据管理提出了新的挑战,其中一项重要基本任务是商品归一化,即识别属于同一个客观实体的所有商品.商品归一化的实现有助于提高商品搜索的准确性、改善用户的体验.但由于在电子商务网站中,特别是在C2C(Customer-to-Customer)模式下,商品信息的数据质量很低且缺乏统一的模式定义规范,导致已有的商品归一化方法难以适用.针对这一问题,文中设计了一种将数据集成、数据清理和商品归一化相结合的混合框架.该框架首先基于图的方法进行模式集成,然后利用商品的描述信息进行数据清理,从而得到数据质量更高且模式统一的商品信息数据;在数据集成和数据清理之后,利用逻辑斯蒂回归(Logistic regression)模型训练分类器,从而得到商品之间的相似度矩阵,最后对相似度矩阵聚类实现商品归一化.通过与已有的方法在真实数据上进行对比实验,验证了文中提出的方法的有效性. 王立 张蓉 沙朝锋 王晓玲 周傲英关键词:数据清理 聚类