张爱华
- 作品数:4 被引量:18H指数:1
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 文本分类中特征权重因子的作用研究
- 在文本分类任务中,通常首先以TFIDF模型表示特征权重,进而通过特征选择函数给出的得分将特征排序,排名靠前的特征以其TFIDF值输入分类器。特征选择函数所计算出来的得分能一定程度代表特征的重要性,然而该得分却没有被纳入权...
- 张爱华靖红芳王斌徐燕
- 关键词:文本分类
- 文献传递
- 非均衡文本分类中基于特征分布的抽样技术研究
- 在处理非均衡文本分类问题的诸多方法中,基于数据的方法最灵活,应用也最广泛。然而,传统的基于数据的方法存在过学习、丢失有用信息及增加训练分类器时间成本等问题,本文提出一系列策略,在一定程度上解决了上述问题。本文借鉴SMOT...
- 张爱华王斌徐燕
- 关键词:文本分类非均衡OVER-SAMPLING高斯混合模型
- 文献传递
- 文本分类中特征权重因子的作用研究被引量:18
- 2010年
- 在传统的基于向量空间的文本分类中,特征权重计算与特征选择过程完全割裂,特征选择函数的得分能反映特征的重要性,却未被纳入权重表示,造成特征表示不精确并影响分类性能。一些改进方法使用特征选择函数等修改TFIDF模型,提高了分类性能,但没有探究各权重因子如何影响分类的性能。该文以词频、逆文档频率及特征选择函数分别作为衡量特征的文档代表性、文档区分性及类别区分性的因子,通过实验测试了它们对分类性能的影响,得到文档代表性因子能使分类效果峰值最高但抵抗噪音特征能力差、文档区分性因子具有抗噪能力但性能不稳定、而类别区分性因子抗噪能力最强且性能最稳定的结论。最后给出权重表示的四点构造原则,并通过实验验证了其对分类性能的优化效果。
- 张爱华靖红芳王斌徐燕
- 关键词:计算机应用中文信息处理文本分类VSM
- 文本分类中特征权重因子的作用研究
- 在文本分类任务中,通常首先以TFIDF模型表示特征权重,进而通过特征选择函数给出的得分将特征排序,排名靠前的特征以其TFIDF值输入分类器。特征选择函数所计算出来的得分能一定程度代表特征的重要性,然而该得分却没有被纳入权...
- 张爱华靖红芳王斌徐燕
- 关键词:文本分类VSM
- 文献传递