陈宝楼
- 作品数:3 被引量:35H指数:2
- 供职机构:安徽大学更多>>
- 发文基金:安徽省教育科学研究项目更多>>
- 相关领域:自动化与计算机技术更多>>
- K-Means算法的研究与改进被引量:21
- 2012年
- K-Means算法是一种基于划分方法的经典聚类算法,已经在很多领域得到广泛的应用。虽然该算法有很多优点,但其也存在自身的局限性,比如需要用户输入聚类簇个数,初始聚类中心是随机性选择的,算法容易陷入局部最优解,对孤立点比较敏感等。文中首先应用统计学中的标准分数对样本进行孤立点分析,然后提出一种新的初始聚类中心确定策略。对改进的算法和原算法分别做实验进行比较,实验结果表明,改进的算法在准确率、收敛速度和稳定性方面都有很大的提高。
- 周爱武陈宝楼王琰
- 关键词:孤立点初始聚类中心
- K-Means算法研究及在文本聚类中的应用
- 随着互联网的快速发展,大量文本信息存储过程变得更加容易,在Web上可以利用文档的数量正在迅猛地增长。在知识的海洋中,可以利用的信息总量在持续增长的时候,而用户的理解和处理信息的能力维持不变,如何从这海量的信息当中寻找出自...
- 陈宝楼
- 关键词:K-MEANS算法文本聚类数据挖掘功能模块信息处理
- 一种基于FUP的TD-FP-Tree并行快速更新算法被引量:2
- 2013年
- TD-FP-Growth是对经典关联规则挖掘算法FP-Growth算法的改进,它采用新的数据结构TD-FP-Tree。人们已经基于Apriori和FP-Growth算法提出了多种关联规则增量挖掘算法。文中讨论了在基于TD-FP-Tree的结构上如何进行增量挖掘,对批量挖掘算法的瓶颈进行分析,指出加快更新速度的策略。文中基于FUP思想提出了TD-FP-Tree的快速更新算法,重点研究了当有单个项在新增事务加入后由非频繁变为频繁时TD-FP-Tree的处理情况。通过将项分类处理降低更新时间,并部分采用并行处理进一步提高效率。实验表明,文中提出的算法不仅可以快速更新TD-FP-Tree,而且在同基于FP-Tree结构的增量挖掘对比中也有更好的表现。
- 周爱武王琰陈宝楼
- 关键词:关联规则