万中英 作品数:27 被引量:97 H指数:6 供职机构: 江西师范大学计算机信息工程学院 更多>> 发文基金: 国家自然科学基金 江西省自然科学基金 江西省教育厅科学技术研究项目 更多>> 相关领域: 自动化与计算机技术 水利工程 天文地球 理学 更多>>
一种新的投影寻踪计算方法及在文本分类中的应用 在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种何效的降维方法,但在计算多个投影方向的时间复杂性太高,且投影方向的个数难于确定。本文针对这一问... 万中英 王明文 廖海波关键词:文本分类 维数约简 投影寻踪 文献传递 维数约简在网页分类中的应用 为了有效地组织Internet 网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域。但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题。本文介绍了主成分分析(Principle Comp... 万中英 王明文 廖海波 左家莉关键词:投影寻踪 网页分类 遗传算法 文献传递 免疫进化的投影寻踪模型在文本分类中的应用 被引量:4 2011年 投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。针对文本分类中维数灾难问题,采用投影寻踪模型,将高维的文本数据降到超低维。投影寻踪的关键是构造能够找到最佳投影方向的有效算法,本文根据免疫进化的思想提出了免疫进化的投影寻踪模型,该模型能有效地寻找最佳的投影方向。将该方法应用于Reuters-21578文档集和复旦文档集,实验结果表明此方法不仅能有效解决文本分类中难数灾难问题,而且得到了很好的分类性能。 廖海波 万中英 王明文关键词:免疫进化算法 投影寻踪 文本分类 基于投影寻踪中文网页自动分类 如何对网上的文本信息进行分类,使Internet这个巨大分布式信息空间的无序状态有序化,已成为文本信息处理和计算机研究领域亟待解决的一个问题。 一般来说,由于文本集中的特征项可能多达数万个,那么... 万中英关键词:投影寻踪 中文网页分类 文本分类 维数约简 遗传算法 文献传递 专题型网页搜集系统的设计与实现 被引量:2 2004年 近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术———集中式搜集。集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新。为了达到这个搜索目标,本文提出了两个算法:一个是基于多层分类的网页过滤算法,试验结果表明,这种算法有较高的准确率,而且分类速度明显高于一般的分类算法;另一个是基于Web结构的URL排序算法,这个算法充分地利用了Web的结构特征和网页的分布特征。 胡卓颖 徐可 万中英 陆玉昌 丁树良结合全局和局部信息的特征选择算法 被引量:2 2016年 特征选择方法的优劣直接影响到文本分类的效果。传统的特征选择算法是以全局的方式来选取特征,这种方式忽视了局部特征对分类效果的影响,有时候甚至会导致很多训练文档没有特征。因此,在传统的特征选择方法主要考虑文档集全局特征的基础上,增加词对单篇文档的贡献率的考虑,并结合ALOFT方法,提出了一个结合全局和局部信息的特征选择算法(GLFS)。在路透社文档集及复旦文档集上的实验结果表明,本文提出的算法在保证每个文档都有特征词的同时提高了分类效果。最后讨论了对特征权重的确定方法,经过重新计算特征权重后分类效果有了较大的提高。 万中英 王明文 左家莉 万剑怡关键词:文本分类 维数约简在网页分类中的应用 为了有效地组织Internet网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域.但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题.本文介绍了主成分分析(Principle Compo... 万中英 王明文 廖海波 左家莉关键词:投影寻踪 网页分类 遗传算法 网页信息 文献传递 Web挖掘中若干理论与算法研究 王明文 罗远胜 左家莉 万中英 王晓庆 廖海波 吴福英 万剑怡 因特网正在把全球的信息资源连接起来,形成了人类有史以来所面对的最巨大的信息海洋。但这些信息在给人们带来丰富信息资源的同时,也使人们陷入了所谓的“信息灾难”。信息过载几乎成为人人需要面对的问题。Web挖掘是从因特网中获取感...关键词:关键词:因特网 模拟退火的投影寻踪模型在文本分类中的应用 在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种有效的降维方法。投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低... 廖海波 万中英 王明文关键词:模拟退火 投影寻踪 文本分类 文献传递 基于投影寻踪回归文本自动分类的模型 被引量:6 2005年 文本被表示为向量空间模型后,是维数非常高的数据,对其进行维数约简是必要的。投影寻踪正是一种稳健的、非参数化的维数约简方法。提出了一种基于投影寻踪回归的文本自动分类模型。应用该模型,可以真实地描述高维数据的客观内在规律,从而达到提高文本分类精度的目的,岭函数拟合函数的合理选择是提高分类精度的关键,故对拟合函数的选取做了初步的研究。采用标准文档集R eu ters-21578进行了分类实验,同时在相同的预处理条件下,与目前常用的方法进行了对比实验。实验结果表明,该模型对文本自动分类具有较高的召回率和准确率。 廖海波 万中英 王明文关键词:文本分类 维数约简