李常宝
- 作品数:11 被引量:34H指数:3
- 供职机构:华北计算技术研究所更多>>
- 发文基金:国家科技重大专项更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于弹性搜索的异构多表联查方法被引量:1
- 2020年
- 弹性搜索技术作为性能优越的海量数据检索技术被广泛应用到各类数据分析场景中,文中提出一种基于弹性搜索的多表联查方法,在弹性搜索技术基础上面向交互式分析需求,利用采样、散列相结合的思路实现海量异构多表的秒级联查。实验表明,在海量数据的背景下,该算法的查询效率明显优于现有的基于弹性搜索的多表联查技术。
- 张腾李常宝李晓辉刘忠麟
- 基于元数据的动态数据需求定制中间件设计被引量:1
- 2021年
- 文中利用元数据作为中介,基于数据集成的中介模式设计了一种基于元数据的数据需求定制中间件。利用元数据作为数据源和数据需求之间的中介,完成异构的原始数据到统一的数据视图再到需求数据之间的数据格式转换与集成操作,并能够支持运行时的数据源结构修改和数据需求变更的操作。
- 谭笠志李常宝贾宏刘忠麟
- 关键词:数据集成元数据中介模式中间件
- 面向研究性项目文档的知识画像模型
- 2020年
- 为提高科研活动产生的研究性项目文档的知识要点的精准智能识别和检索能力,通过分析文档行文结构,提出建立文档知识画像的方法。设计精准贴合研究性项目文档结构的多层次的知识画像,自动识别文档知识要点,并按语义段落多粒度提取知识要点。采用知识表达准确率对模型的知识提取精确度进行检验,实验结果表明模型比传统方法对文档知识描述更准确,可在实际工作中使用。
- 武迪艾中良刘忠麟李常宝
- 关键词:知识提取
- 基于多级列式索引的海量数据高效查询设计被引量:10
- 2016年
- 伴随海量数据存储、处理技术的发展,数据中心中积累了大量的格式化历史数据,此类数据呈现出数据规模庞大、被查询频次低和查询内容规律不确定等特点,而当前以文件为操作对象的系统在查询此类数据时主要采用分布式计算引擎对数据进行全局遍历,存在处理时间长、系统资源消耗高等问题。因此,本文提出了一种基于列式多级索引的海量数据高效查询方法,使得查询过程中只有承载相关数据的节点参与计算,大幅降低了系统资源消耗。实验表明,本文方法在用于大规模历史数据内容查询时,相对于较主流的文件系统查询技术有明显的效率提升。
- 杨淙钧艾中良刘忠麟李常宝
- 关键词:海量数据索引机制
- 一种基于多维视图的高分数据查找方法
- 针对高分数据内容特征,本文提出了一种多维视图描述模型,基于该模型生成了多维目录,为用户查找高分数据提供多个入口;对于海量高分数据构成的复杂目录体系,本文提出了一种基于多维视图信息的目录节点查找方法,可以通过关键词实现多维...
- 季艳李常宝
- 关键词:多维视图
- 文献传递
- 面向司法专题分析的大数据计算资源调度方法被引量:3
- 2017年
- 针对司法专题分析过程中面临的交互式分析类数据处理执行效率低的问题,提出了一种基于任务类型的计算资源调度方法,为任务类型建立计算资源配额管理机制。在类型配额内具备抢占式优先调度权,在类型配额外可以借用其他任务类型的空闲资源。实验与分析表明,该方法能够在兼顾普通大数据处理任务执行效率的前提下显著提升交互式分析类任务的执行效率。
- 刘忠麟艾中良艾中良李常宝
- 面向GPU的异构流计算系统资源管理与调度机制被引量:1
- 2019年
- 文中针对当前广泛使用的大数据流计算系统Storm无法对GPU资源进行管理、调度的问题,提出一种包含GPU在内的流计算系统资源状态管理与调度机制,实现分布式集群环境下的GPU资源状况获取、GPU负载度检测、包含GPU资源的系统资源调度,形成分布式集群环境下对通用计算资源与GPU整体的负载状态评估与按需调度能力。
- 顾平莉李融李常宝刘忠麟
- 关键词:流计算异构计算GPUSTORM资源调度
- 一种法律判决预测的影响因素分析方法被引量:3
- 2021年
- 法律判决预测是指机器依据案件事实描述,对法律案件的判决罪名进行预测的方法,是人工智能技术在法律领域一项很有前途的应用。随着人工智能领域的迅猛发展,相关技术在法律领域的应用愈加广泛,许多经典的模型在法律判决预测方面取得了不错的结果。机器学习方法效果虽好,但一直无法解决预测结果的解释说理问题,预测结果存在黑盒性特征,无法获得结论的支撑依据。针对上述问题,本文提出一种法律判决预测的影响因素分析方法,结合中文分词技术、支持向量机技术(Support Vector Machine,SVM)和解释预测统一框架(SHapley Additive exPlanations,SHAP),实现对法律案件判决结果的智能预测,并对预测结果的影响因素进行科学的分析,给出对预测结果影响较大的关键因素,为预测结果提供支撑依据。
- 殷敏李晓辉李常宝顾平莉张可吕守业
- 关键词:SVM
- 基于Spark的精准关联规则挖掘算法实现被引量:4
- 2018年
- 为在大数据环境中精确地进行关联规则挖掘,基于分布式框架Spark,改进关联规则挖掘算法Apriori,解决使用该算法处理大规模数据时遇到的单机内存资源限制和性能缺陷,同时保证结果准确度。利用开源数据集和海量轨迹数据集评估算法的有效性,实验结果表明:与传统方法相比,改进后的Apriori算法进行规则挖掘能够得到相同准确度的结果,并且通过增加处理节点的数量灵活扩展待挖掘数据规模,从而使关联规则挖掘不再受数据规模限制。
- 李融杨淙钧高泽李常宝刘忠麟艾中良
- 关键词:关联规则挖掘分布式计算大数据APRIORISPARK
- 一种基于YARN的高优先级作业调度实现方案被引量:8
- 2016年
- 提交到YARN上的一个大数据作业会被切分为一个或者多个任务,任务是大数据作业申请资源和执行的基本单位[1]。在某些领域中存在需要对作业紧急度作有效区分使得高紧急度作业优先获得资源的需求,但是在现有的YARN资源调度策略中,对于提交到YARN上的高优先级作业缺乏资源优先分配和高质量的资源保障机制。本文在修改YARN原有资源调度方案的基础上,提出了一种基于YARN的高优先级作业调度实现方案。实验表明,提交到YARN上的高优先级作业执行效率提升了7%左右,证明设计方案行之有效。
- 詹文涛艾中良刘忠麟李常宝高泽
- 关键词:YARN作业调度