万中英
- 作品数:32 被引量:103H指数:6
- 供职机构:江西师范大学更多>>
- 发文基金:国家自然科学基金江西省自然科学基金江西省教育厅科学技术研究项目更多>>
- 相关领域:自动化与计算机技术水利工程天文地球理学更多>>
- 一种新的投影寻踪计算方法及在文本分类中的应用
- 在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种何效的降维方法,但在计算多个投影方向的时间复杂性太高,且投影方向的个数难于确定。本文针对这一问...
- 万中英王明文廖海波
- 关键词:文本分类维数约简投影寻踪
- 文献传递
- 结合全局对应矩阵和相对位置信息的古汉语实体关系联合抽取
- 2024年
- 目前,基于全局对应矩阵的联合抽取模型在英文领域和现代汉语领域的实体关系抽取任务上取得了SOTA(state-of-the-art)结果,然而在古汉语实体关系抽取任务上表现相对较差。这首先由于当前的古汉语实体关系数据集具有数据规模小、数据标注稀疏的特点,模型无法从数据中学习到足量的信息;其次是因为该模型训练时缺少实体的跨度信息,使得模型容易生成长度异常的实体。针对上述问题,该文在研究了开源的《资治通鉴》语料后,人工构建了一个古汉语实体关系数据集,并设计了一种结合全局对应矩阵和相对位置信息的实体关系联合抽取方法。该方法在古汉语实体关系数据集上的精确率和F1值分别达到了81.0%和67.0%,相较于基线模型提升了6.8%和1.4%。同时,该文通过实验验证了上述融合相对位置信息的方法对于解决“容易生成长度异常实体”问题的有效性。
- 胡益裕左家莉涂传龙曾雪强万中英王明文
- 维数约简在网页分类中的应用
- 为了有效地组织Internet 网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域。但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题。本文介绍了主成分分析(Principle Comp...
- 万中英王明文廖海波左家莉
- 关键词:投影寻踪网页分类遗传算法
- 文献传递
- 融合VAD知识的情感分布增强的细粒度情绪识别方法
- 本发明公开了融合VAD知识的情感分布增强的细粒度情绪识别方法,包括,将细粒度文本情绪数据集内的样本输入至语义信息模块,输出文本语义信息表征向量;将样本输入至情感分布信息模块,得到样本的情感分布并输入融合预测模块中的情感知...
- 李春阳付广成万中英刘邱云曾雪强
- 免疫进化的投影寻踪模型在文本分类中的应用被引量:4
- 2011年
- 投影寻踪是通过寻找最能反映原高维数据的结构或特征的投影方向,把高维数据投影到低维子空间上,从而实现在低维空间上研究分析高维数据的目的。针对文本分类中维数灾难问题,采用投影寻踪模型,将高维的文本数据降到超低维。投影寻踪的关键是构造能够找到最佳投影方向的有效算法,本文根据免疫进化的思想提出了免疫进化的投影寻踪模型,该模型能有效地寻找最佳的投影方向。将该方法应用于Reuters-21578文档集和复旦文档集,实验结果表明此方法不仅能有效解决文本分类中难数灾难问题,而且得到了很好的分类性能。
- 廖海波万中英王明文
- 关键词:免疫进化算法投影寻踪文本分类
- 融合VAD知识的情感分布增强的细粒度情绪识别方法
- 本发明公开了融合VAD知识的情感分布增强的细粒度情绪识别方法,包括,将细粒度文本情绪数据集内的样本输入至语义信息模块,输出文本语义信息表征向量;将样本输入至情感分布信息模块,得到样本的情感分布并输入融合预测模块中的情感知...
- 李春阳 付广成万中英刘邱云曾雪强
- 基于投影寻踪中文网页自动分类
- 如何对网上的文本信息进行分类,使Internet这个巨大分布式信息空间的无序状态有序化,已成为文本信息处理和计算机研究领域亟待解决的一个问题。 一般来说,由于文本集中的特征项可能多达数万个,那么把文本表示为向量形式...
- 万中英
- 文献传递
- 专题型网页搜集系统的设计与实现被引量:2
- 2004年
- 近年来人们提出了很多新的搜集思想,他们都使用了一个共同的技术———集中式搜集。集中式搜集通过分析搜索的区域,来发现与主题最相关的链接,防止访问网上不相关的区域,这可以大量地节省硬件和网络资源,使网页得到尽快的更新。为了达到这个搜索目标,本文提出了两个算法:一个是基于多层分类的网页过滤算法,试验结果表明,这种算法有较高的准确率,而且分类速度明显高于一般的分类算法;另一个是基于Web结构的URL排序算法,这个算法充分地利用了Web的结构特征和网页的分布特征。
- 胡卓颖徐可万中英陆玉昌丁树良
- 结合全局和局部信息的特征选择算法被引量:2
- 2016年
- 特征选择方法的优劣直接影响到文本分类的效果。传统的特征选择算法是以全局的方式来选取特征,这种方式忽视了局部特征对分类效果的影响,有时候甚至会导致很多训练文档没有特征。因此,在传统的特征选择方法主要考虑文档集全局特征的基础上,增加词对单篇文档的贡献率的考虑,并结合ALOFT方法,提出了一个结合全局和局部信息的特征选择算法(GLFS)。在路透社文档集及复旦文档集上的实验结果表明,本文提出的算法在保证每个文档都有特征词的同时提高了分类效果。最后讨论了对特征权重的确定方法,经过重新计算特征权重后分类效果有了较大的提高。
- 万中英王明文左家莉万剑怡
- 关键词:文本分类
- 维数约简在网页分类中的应用
- 为了有效地组织Internet网上极其丰富的信息资源,网页自动分类成为一个日益重要的研究领域.但目前的分类算法还存在一些不足,其主要原因之一就是特征空间的维数过高问题.本文介绍了主成分分析(Principle Compo...
- 万中英王明文廖海波左家莉
- 关键词:投影寻踪网页分类遗传算法网页信息
- 文献传递