您的位置: 专家智库 > >

刘世兴

作品数:5 被引量:10H指数:2
供职机构:辽宁工程技术大学软件学院更多>>
发文基金:辽宁省高校创新团队支持计划辽宁省高等学校杰出青年学者成长计划国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 5篇中文期刊文章

领域

  • 5篇自动化与计算...

主题

  • 3篇余度
  • 3篇冗余
  • 3篇冗余度
  • 3篇特征加权
  • 3篇加权
  • 3篇加权算法
  • 3篇N-GRAM...
  • 1篇于字
  • 1篇语言模型
  • 1篇语义
  • 1篇语义相似
  • 1篇语义相似度
  • 1篇坐标系
  • 1篇文本
  • 1篇稀疏数据
  • 1篇相似度
  • 1篇矩阵
  • 1篇交运算
  • 1篇POS
  • 1篇词性

机构

  • 5篇辽宁工程技术...

作者

  • 5篇邱云飞
  • 5篇刘世兴
  • 4篇邵良杉
  • 2篇林明明
  • 1篇王璐
  • 1篇魏海超

传媒

  • 2篇计算机应用
  • 2篇计算机工程与...
  • 1篇模式识别与人...

年份

  • 2篇2016
  • 3篇2015
5 条 记 录,以下是 1-5
排序方式:
基于相关性及语义的n-grams特征加权算法被引量:2
2015年
n-grams作为文本分类特征时易造成分类准确率下降,并且在对n-grams加权时通常忽略单词间的冗余度和相关性.针对上述问题,文中提出基于相关性及语义的n-grams特征加权算法.在文本预处理时,对n-grams进行特征约简,降低内部冗余,再根据n-grams内单词与类别的相关性及n-grams与测试集的语义近似度加权.搜狗中文新闻语料库和网易文本分类语料库上的实验表明,文中算法能筛选高类别相关且低冗余的n-grams特征,在量化测试集时减少稀疏数据的产生.
邱云飞刘世兴林明明邵良杉
关键词:语义相似度N-GRAMS特征加权
基于字矩阵交运算的n-grams特征选择加权算法被引量:1
2016年
中文文本中,传统的n-grams特征选择加权算法(如滑动窗口法等)存在两点不足:在将每个词进行组合、生成n-grams特征之前必须对每篇文本调用分词接口。无法删除n-grams中的冗余词,使得冗余的n-grams特征对其他有用的n-grams特征产生干扰,降低分类准确率。为解决以上问题,根据汉语单、双字词识别研究理论,将文本转化为字矩阵。通过对字矩阵中元素进行冗余过滤和交运算得到n-grams特征,避免了n-grams特征中存在冗余词的情况,且不需对文本调用任何分词接口。在搜狗中文新闻语料库和网易文本语料库中的实验结果表明,相比于滑动窗口法和其他n-grams特征选择加权算法,基于字矩阵交运算的n-grams特征选择加权算法得到的n-grams特征耗时更短,在支持向量机(Support Vector Machine,SVM)中的分类效果更好。
邱云飞刘世兴邵良杉
关键词:交运算特征加权
基于分布和逆文本类别指数的特征迁移加权算法被引量:1
2015年
传统机器学习面临一个难题,即当训练数据与测试数据不再服从相同分布时,由训练集得到的分类器无法对测试集文本准确分类。针对该问题,根据迁移学习原理,在源领域和目标领域的交集特征中,依据改进的特征分布相似度进行特征加权;在非交集特征中,引入语义近似度和新提出的逆文本类别指数(TF-ICF),对特征在源领域内进行加权计算,充分利用大量已标记的源领域数据和少量已标记的目标领域数据获得所需特征,以便快速构建分类器。在文本数据集20Newsgroups和非文本数据集UCI中的实验结果表明,基于分布和逆文本类别指数的特征迁移加权算法能够在保证精度的前提下对特征快速迁移并加权。
邱云飞刘世兴林明明邵良杉
关键词:特征加权
基于多指标融合的文本特征评价及选择算法被引量:3
2016年
在文本分类问题中,有多种评价特征优劣的指标,其中主要有特征与类别的相关性、特征自身的冗余度和特征在语料中的稀疏程度。由于文本特征的优劣直接影响分类效果,全方位考虑特征的各个因素很有必要。特征选择常分为三步骤分别对相关性、冗余度和稀疏程度进行衡量,而在每一步的加权和筛选过程中都要耗费大量时间,在面对实时性和准确性要求较高的情况时,这种分步评价特征的方法很难适用。针对上述问题,首先建立坐标模型,将相关性、冗余度和稀疏程度映射到坐标系中,根据空间内的点和原点构成的向量与坐标面或坐标轴的夹角对文本特征进行加权和筛选,从而将多个评价指标整合为一个评价指标,大幅节省了多次加权和筛选所耗费的时间,提高了特征选择效率。在复旦大学中文文本语料库和网易文本语料库中的实验结果表明,相比于分步法,基于多指标融合的文本特征评价及选择算法能够更快、更准地筛选词汇和n-grams特征,并在支持向量机(Support Vector Machine,SVM)中验证了特征在分类时的有效性。
邱云飞刘世兴王璐
关键词:冗余度坐标系
W-POS语言模型及其选择与匹配算法被引量:3
2015年
n-grams语言模型旨在利用多个词的组合形式生成文本特征,以此训练分类器对文本进行分类。然而n-grams自身存在冗余词,并且在与训练集匹配量化的过程中会产生大量稀疏数据,严重影响分类准确率,限制了其使用范围。对此,基于n-grams语言模型,提出一种改进的n-grams语言模型——W-POS。将分词后文本中出现概率较小的词和冗余词用词性代替,得到由词和词性的不规则排列组成的W-POS语言模型,并提出该语言模型的选择规则、选择算法以及与测试集的匹配算法。在复旦大学中文语料库和英文语料库20Newsgroups中的实验结果表明,W-POS语言模型既继承了n-grams语言模型减少特征数量、携带部分语义和提高精度的优点,又克服了n-grams语言模型产生大量稀疏数据、含有冗余词的缺陷,并验证了选择和匹配算法的有效性。
邱云飞刘世兴魏海超邵良杉
关键词:词性冗余度稀疏数据
共1页<1>
聚类工具0