王小冷
- 作品数:3 被引量:3H指数:1
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:北京市科技计划项目国家重点基础研究发展计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文网页自动分类研究
- 网页中包含着大量的HTML结构信息、超链接和噪音信息,因此网页分类可以看成是半结构化的噪音环境下的文本分类问题.在互联网迅猛发展的今天,网页分类可以在较大程度上消除网上信息杂乱现象,并方便用户准确定位所需信息,加速检索过...
- 王小冷
- 关键词:网页分类朴素贝叶斯K近邻N-GRAM模型
- 文献传递
- 一种抗噪音的中文网页分类方法被引量:3
- 2007年
- 网页分类可以看成是噪音环境下的文本分类问题。本文是在噪音环境下文本分类方法的一种探索:把在传统文本分类中性能基本相当的基于N-gram模型的贝叶斯(NGBayes)、基于分词的朴素贝叶斯(NBayes)和基于分词的k近邻(kNN)分类方法应用到网页分类领域,在中文Web信息检索论坛提供的中文网页分类训练集——CCT2002-v1.1(Corp_1)和我们自己整理的中文网页集(Corp_2)进行了实验。验证了三种分类方法在非噪音环境下性能基本相当,而噪音环境下的实验结果表明,NGBayes的分类性能远远高于其他两种方法,这说明NGBayes对中文网页中的噪音不敏感。然后通过对特征的分析,探讨了NGBayes抗噪音的原因。从而得出结论:NGBayes是一种抗噪音的中文网页分类方法。
- 王小冷王斌
- 关键词:计算机应用中文信息处理KNN
- 一种新颖的基于粗糙集的特征选择方法(英文)
- 文本自动分类的主要困难之一是特征空间的维数很高,为此特征选择在文本分类中起重要的作用。特征选择方法,如文档频率(DF)在文本分类中广泛应用,它是一种最简单的词约简技术,并且可以和比较复杂的特征选择方法的性能相当,然而 D...
- 徐燕李锦涛王斌丁凡孙春明王小冷
- 文献传递