郑霖
- 作品数:1 被引量:27H指数:1
- 供职机构:同济大学经济与管理学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于改进TFIDF算法的文本分类研究被引量:27
- 2014年
- 由于文本分类在信息检索、邮件过滤、网页分类、个性化推荐等领域有着广泛的应用价值,所以自文本分类的概念提出以来,受到了学者们的广泛关注。在文本分类的研究中,学者们运用了很多方法,其中TFIDF是文档特征权重计算的最常用算法之一,但是传统的TFID算法忽略了特征项在类内和类间的分布,导致很多区分度不大的特征项被赋予了较大的权重。针对传统TFIDF算法的不足,本文在IDF的计算过程中,用词条在类内与类间的文档占比来考虑词条在类内与类间的分布。在实验中,用改进的权重算法表示文本向量,通过考察分类的效果,验证了改进算法的有效性。
- 郑霖徐德华
- 关键词:TFIDF算法文本分类