辽宁省高校创新团队支持计划(2009T045)
- 作品数:23 被引量:102H指数:5
- 相关作者:邱云飞邵良杉刘世兴林明明刘大有更多>>
- 相关机构:辽宁工程技术大学吉林大学更多>>
- 发文基金:辽宁省高校创新团队支持计划国家自然科学基金辽宁省高等学校杰出青年学者成长计划更多>>
- 相关领域:自动化与计算机技术航空宇航科学技术文化科学电子电信更多>>
- 基于相关性及语义的n-grams特征加权算法被引量:2
- 2015年
- n-grams作为文本分类特征时易造成分类准确率下降,并且在对n-grams加权时通常忽略单词间的冗余度和相关性.针对上述问题,文中提出基于相关性及语义的n-grams特征加权算法.在文本预处理时,对n-grams进行特征约简,降低内部冗余,再根据n-grams内单词与类别的相关性及n-grams与测试集的语义近似度加权.搜狗中文新闻语料库和网易文本分类语料库上的实验表明,文中算法能筛选高类别相关且低冗余的n-grams特征,在量化测试集时减少稀疏数据的产生.
- 邱云飞刘世兴林明明邵良杉
- 关键词:语义相似度N-GRAMS特征加权
- 基于分布和逆文本类别指数的特征迁移加权算法被引量:1
- 2015年
- 传统机器学习面临一个难题,即当训练数据与测试数据不再服从相同分布时,由训练集得到的分类器无法对测试集文本准确分类。针对该问题,根据迁移学习原理,在源领域和目标领域的交集特征中,依据改进的特征分布相似度进行特征加权;在非交集特征中,引入语义近似度和新提出的逆文本类别指数(TF-ICF),对特征在源领域内进行加权计算,充分利用大量已标记的源领域数据和少量已标记的目标领域数据获得所需特征,以便快速构建分类器。在文本数据集20Newsgroups和非文本数据集UCI中的实验结果表明,基于分布和逆文本类别指数的特征迁移加权算法能够在保证精度的前提下对特征快速迁移并加权。
- 邱云飞刘世兴林明明邵良杉
- 关键词:特征加权
- 面向属性值遗漏数据决策树分类算法研究被引量:1
- 2011年
- 在已有的多种决策树测试属性选择方法中,未见将属性值遗漏数据处理集成在测试属性选择过程中的报道,而现有的属性值遗漏数据处理方法都会不同程度地带入偏置。基于此,提出了一种将基于联合熵的信息增益率作为决策树测试属性选择标准的方法,用以在生成决策树的过程中消除值遗漏数据对测试属性选择的影响。在WEKA机器平台上进行了对比实验,结果表明,改进算法能够从总体上提高算法的执行效率和分类精度。
- 邱云飞李雪王建坤邵良杉
- 关键词:联合熵决策树
- 基于VPRS多变量决策树优化算法
- 2010年
- 噪声数据降低了多变量决策树的生成效率和模型质量,目前主要采用针对叶节点的剪枝策略来消除噪声数据的影响,而对决策树生成过程中的噪声干扰问题却没有给予关注。为改变这种状况,将基本粗糙集(rough set,RS)理论中相对核的概念推广到变精度粗糙集(variable precision rough set,VPRS)理论中,并利用其进行决策树初始变量选择;将两个等价关系相对泛化的概念推广为两个等价关系多数包含情况下的相对泛化,并利用其进行决策树初始属性检验;进而给出一种能够有效消除噪声数据干扰的多变量决策树构造算法。最后,采用实例验证了算法的有效性。
- 邱云飞王光关晓林邵良杉
- 关键词:单变量决策树多变量决策树噪声数据变精度粗糙集
- 基于方差的CHI特征选择方法被引量:31
- 2012年
- 通过分析特征词与类别间的相关性,在原有的卡方特征选择的方法上增加三个调节参数,使选出的特征词集中分布在某一类,且在某一类中尽可能地均匀分布,并使特征词在某一类中出现的次数尽可能地多。通过实验对比改进前后的卡方特征选择方法,基于方差的卡方统计(Var-CHI)方法使得查全率和查准率都得到了明显的提高。
- 邱云飞王威刘大有邵良杉
- 关键词:文本分类
- 基于HGSD的消费情感分类算法被引量:2
- 2015年
- 针对中文消费评价的情感分类问题,构造基于词典语义概念和上下文语义相结合的情感分类方法,对情感进行分类.该方法首先构造提取不同领域基准词集的方法.然后利用一元语言模型,通过How Net计算情感相似值,进行情感词提取.最后结合How Net方法和Google相似距离方法构造一种情感分类算法,对句子进行情感倾向性分类,既考虑词语本身含义,又考虑词语在上下文中的含义.通过对书籍、电脑和酒店的评价进行实验,F值较高,同时与其他方法进行对比实验,体现文中算法的有效性.
- 林明明邱云飞邵良杉
- 关键词:情感分类知网
- 基于字矩阵交运算的n-grams特征选择加权算法被引量:1
- 2016年
- 中文文本中,传统的n-grams特征选择加权算法(如滑动窗口法等)存在两点不足:在将每个词进行组合、生成n-grams特征之前必须对每篇文本调用分词接口。无法删除n-grams中的冗余词,使得冗余的n-grams特征对其他有用的n-grams特征产生干扰,降低分类准确率。为解决以上问题,根据汉语单、双字词识别研究理论,将文本转化为字矩阵。通过对字矩阵中元素进行冗余过滤和交运算得到n-grams特征,避免了n-grams特征中存在冗余词的情况,且不需对文本调用任何分词接口。在搜狗中文新闻语料库和网易文本语料库中的实验结果表明,相比于滑动窗口法和其他n-grams特征选择加权算法,基于字矩阵交运算的n-grams特征选择加权算法得到的n-grams特征耗时更短,在支持向量机(Support Vector Machine,SVM)中的分类效果更好。
- 邱云飞刘世兴邵良杉
- 关键词:交运算特征加权
- 基于Web评论的用户个人信息提取方法研究被引量:2
- 2012年
- 企业收集和获取用户个人信息是其对用户行为进行分析以制定合理营销决策的前提。注意到当前,由于互联网的高度发展和普及,消费用户往往在Web上以评论文本的形式分享其消费习惯、消费偏好和消费体验,这些海量的评论文本中蕴含着极具价值的信息,为用户个人信息的收集提供良好的资源。针对传统企业收集用户个人信息的方法主要以人工为主导,自动化水平较低的问题,提出一种基于Web挖掘技术以网上评论文本为挖掘对象,对用户个人信息进行自动提取以自动分析用户行为的改进方法。企业可以通过此改进的用户个人信息提取方法对用户行为进行分析以自动获取消费用户对产品的反馈意见并制定有针对性的营销策略。
- 邱云飞王雪刘大有邵良杉
- 关键词:用户行为分析
- 一种词频与方差相结合的特征加权方法被引量:3
- 2012年
- 通过分析特征词与类别间的相关性,提出了一种新的特征加权方法,依据特征词在特定类中出现的次数、特征词在某一类中的集中程度、特征词在特定类中的均匀分布程度来计算特征权值。通过与TF-IDF进行实验对比,新提出的TF-Var特征权重方法使得分类的微平均准确率得到了明显的提高。
- 邱云飞王威刘大有邵良杉
- 关键词:文本分类词频
- 基于微博短文本的用户兴趣建模方法被引量:21
- 2014年
- 针对微博用户兴趣建模问题,提出一种在微博短文本数据集上建立用户兴趣模型的方法。为缓解短文本造成的数据稀疏性问题,在分析微博短文本结构和内容的基础上,给出微博短文本重构概念,根据微博相关的其他微博短文本和文本中包含的3种特殊符号,进行文本内容的扩展,从而扩充原始微博的特征信息。利用HowNet2000概念词典将重构后文本的特征词集映射到概念集。以抽象到概念层的文本向量为基础进行聚类,划分用户的兴趣集合,并给出用户兴趣模型的表示机制。实验结果表明,短文本重构和概念映射提高了聚类效果,与基于协同过滤的微博用户兴趣建模方法相比,平衡均值提高29.1%,表明构建的微博用户兴趣模型具有较好的性能。
- 邱云飞王琳颍邵良杉郭红梅
- 关键词:概念映射用户兴趣模型