东北大学信息科学与工程学院计算机软件研究所
- 作品数:8 被引量:61H指数:2
- 相关作者:叶娜罗海涛杨宝星王春磊更多>>
- 相关机构:中国科学院沈阳自动化研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划霍英东青年教师基金更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- 基于多元判别分析的文本分割模型被引量:18
- 2007年
- 提出了一种独立于具体领域的文本线性分割统计模型,其中采用多元判别分析方法定义了4种全局评价函数,实现对文本分割模式的全局评价,寻找满足分割单元内距离最小化和分割单元间距离最大化条件的最好分割方式.该模型采用遗传算法来解决新模型的高计算复杂度问题.比较性实验结果显示,新模型比TextTiling和Dotplotting算法取得了更高的Pμ评价性能.
- 朱靖波叶娜罗海涛
- 关键词:文本分割多元判别分析遗传算法
- 异构分布式环境下的约束管理问题被引量:2
- 2001年
- 1 引言
随着网络技术的发展,蕴藏巨大信息的网络可以被视为存储信息的数据库,但这种分布式环境要求具有更有效、复杂的信息处理能力.当数据存储在网络上松耦合、异构的系统中,彼此又存在联系时,就产生了数据的完整性约束问题.例如,虚拟企业[1]为物理上分布的结点提供高度的交互空间,以便于这些事先存在的企业可以随时决定是否加入到一个信息共享和交换的网络中.而这些企业是自治、异构且彼此独立的,可能使用不同的信息管理系统和控制策略.企业内部的数据源间以及企业之间都存在潜在的制约关系.
- 杨晓春王丹王斌王国仁于戈
- 关键词:数据库约束管理知识模型
- 面向虚拟企业信息集成的扩展联邦模式被引量:37
- 2001年
- 虚拟企业的复杂环境对信息集成处理提出了新的挑战。本文结合虚拟企业的环境 ,探讨了一个面向虚拟企业的信息集成系统—ViaScope系统的信息集成处理问题。虚拟企业信息集成系统不但要为联盟内部各企业盟员提供信息管理 ,还要维护联盟间的信息独立性。原有的联邦模式体系结构显然不适用于新环境下这种多级管理的需求。本文扩展了原有的联邦模式体系结构 ,为增强局部企业信息源的自治性 ,取消了输入模式 ,对原有的输出模式进行了重新定义 ,同时增加了仲裁模式 ,以保证联盟间信息的有效管理。
- 杨晓春于戈王国仁王丹郑怀远
- 关键词:虚拟企业信息集成企业管理
- 面向属性级不确定数据的U-Topk查询优化算法的研究
- Topk是基于不确定性数据可能世界模型而提出的一种查询语义,随着不确定性数据集的增大,可能世界的实例数量指数增长,这为U Topk查询处理提出了重大挑战.针对属性级不确定性的U-Topk查询处理算法展开研究,提出了U-T...
- 于洋赵志滨鲍玉斌于戈
- 关键词:不确定性数据精度控制
- 一种面向BSP系统的多等待队列作业调度算法
- 2014年
- 在以往的BSP(Bulk Synchronous Parallel)系统中,作业调度都是采用基于单队列的优先级调度策略.它的优点是实现简单,但作业队列维护开销大,低优先级作业存在无限等待的问题.论文提出了面向BSP系统基于多等待队列的按优先级作业调度算法,以高响应比优先级队列为作业组织方式,并加入了作业优先级的动态调整策略,避免了低优先级作业因长期得不到执行而废弃的情况.目前,论文所提算法已成功运行于BC-BSP系统中.文中通过实验进一步证明,融合了作业优先级调整策略的基于多等待队列的作业调度算法较传统的单队列优先级调度算法在队列维护方面,能降低30%~50%的维护代价.另外,在兼顾作业的初始优先级的同时,能够减少低优先级作业的等待时间,避免低优先级作业的无限等待问题.
- 杨宝星赵志滨鲍玉斌于戈
- 关键词:作业调度响应比
- 参数模块和属性约简的应用服务器优化方法被引量:2
- 2010年
- 现实的优化方法与策略往往是优化人员基于服务器厂商所提供的官方技术文档来分析各种参数的实际意义,优化比较漫长,缺少系统性和规律性,很难快速的确定所需调节的关键参数.本文针对常用的应用服务器分析了其性能下降的原因,提出了调节参数模块化思想并结合属性约简算法对参数模块进行属性约简,从实践中定量的找出影响系统性能的主要参数对其进行着重调节快速提高系统性能,提出了一种全新的服务器优化方法.
- 刘岩王正方朱云龙董晓梅申德荣
- 关键词:属性约简系统性能
- 面向属性级不确定数据的U-Topk查询优化算法的研究
- 2013年
- U-Topk是基于不确定性数据可能世界模型而提出的一种查询语义.随着不确定性数据集的增大,可能世界的实例数量指数增长,这为U-Topk查询处理提出了重大挑战.针对属性级不确定性的UTopk查询处理算法展开研究,提出了U-Topk查询处理优化算法APT4U-Topk.首先通过预处理来确定必然进入最终结果集的元组,从而实现k值的压缩.然后,依次读取后续元组,计算可能世界模型聚合概率,并判断此时刻是否为可能世界模型聚合概率的阈值.当到达阈值时算法停止.此时概率最大的聚合可能世界模型就是U-Topk查询结果.最后,通过实验对APT4U-Topk算法进行了时空效率的验证.实验结果表明,在数据集和k值增大的情况下,APT4U-Topk算法要优于此前提出的OptU-Topk算法.
- 于洋赵志滨鲍玉斌于戈
- 关键词:不确定性数据查询处理
- Asyn-SimRank:一种可异步执行的大规模SimRank算法被引量:2
- 2015年
- SimRank算法利用网络结构来评估网络中任意2点的相似性,它被广泛应用于社交网络和链接预测等诸多领域中.近年来,随着大数据技术的发展,SimRank算法处理的数据不断增大,人们利用MapReduce等分布式计算模型设计实现分布式的大规模SimRank算法来适应大数据处理的需求.但是,由于SimRank算法包含开销较大的迭代过程,每次迭代之后都需要一个全局同步,且每次迭代的计算复杂度高、通信量大,SimRank算法不能在分布式环境下高效地实现.1)提出Asyn-SimRank算法,该算法采用迭代-累积的方式完成迭代计算,异步执行SimRank的核心迭代过程,避免了大规模分布式计算中的大量同步开销,同时有效降低计算量并减少通信开销;2)提出关键点优先调度计算,提升了AsynSimRank算法的全局收敛速度;3)证明了Asyn-SimRank算法的正确性和收敛性以及关键点优先调度计算的有效性;4)支持异步迭代的分布式框架Maiter上实现了Asyn-SimRank算法.实验结果显示,相比较于Hadoop,Spark上实现的SimRank算法和Delta-SimRank算法,Asyn-SimRank算法大大提升了算法的计算效率,加速了算法收敛.
- 王春磊张岩峰鲍玉斌赵长宽于戈高立新
- 关键词:迭代计算相似度大数据MAPREDUCE模型