李雪
- 作品数:2 被引量:5H指数:1
- 供职机构:辽宁工程技术大学软件学院更多>>
- 发文基金:辽宁省科技厅科技攻关项目辽宁省高校创新团队支持计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向属性值遗漏数据决策树分类算法研究被引量:1
- 2011年
- 在已有的多种决策树测试属性选择方法中,未见将属性值遗漏数据处理集成在测试属性选择过程中的报道,而现有的属性值遗漏数据处理方法都会不同程度地带入偏置。基于此,提出了一种将基于联合熵的信息增益率作为决策树测试属性选择标准的方法,用以在生成决策树的过程中消除值遗漏数据对测试属性选择的影响。在WEKA机器平台上进行了对比实验,结果表明,改进算法能够从总体上提高算法的执行效率和分类精度。
- 邱云飞李雪王建坤邵良杉
- 关键词:联合熵决策树
- 基于线性组合文本特征选择方法被引量:4
- 2011年
- 常用文本分类特征选择算法主要通过某种评价函数来计算单个特征对类别的区分能力,由于仅考虑了特征和类别之间的关联性,忽略了特征与特征之间的相关性,从而导致特征集存在冗余。针对这一问题,提出了一种新的用于文本分类的特征选择算法,该算法可以帮助选出类别区分能力强、特征之间关联性弱的特征。实验证实,该算法的性能要优于传统的特征选择算法。
- 邱云飞王建坤李雪邵良杉
- 关键词:文本分类冗余性