国家自然科学基金(60663007)
- 作品数:15 被引量:107H指数:5
- 相关作者:王明文吴水秀吴根秀刘邱云付雪峰更多>>
- 相关机构:江西师范大学江西财经大学南昌工程学院更多>>
- 发文基金:国家自然科学基金江西省科技攻关计划江西省教育厅科学技术研究项目更多>>
- 相关领域:自动化与计算机技术电子电信理学更多>>
- 一种新的投影寻踪计算方法及在文本分类中的应用
- 在文本分类中,特征维数高是必须处理的问题,有效的维数约简技术可以提高分类器学习任务的效率和分类性能,已有研究表明投影寻踪是一种何效的降维方法,但在计算多个投影方向的时间复杂性太高,且投影方向的个数难于确定。本文针对这一问...
- 万中英王明文廖海波
- 关键词:文本分类维数约简投影寻踪
- 文献传递
- 基于核偏最小二乘分类的垃圾邮件过滤被引量:2
- 2009年
- 垃圾邮件是Internet上亟待解决的问题,目前许多垃圾邮件过滤技术已经被使用。基于偏最小二乘的方法可以解决垃圾邮件的内容中普遍存在的数据稀疏性、高特征维数和多重相关性问题。但邮件内容之间的内在联系往往不是线性的,该文通过在偏最小二乘方法上引入核函数,去解决这一类的非线性问题。Enron-Spam垃圾数据集实验表明,同PLSR等方法比较,模型表现出了较好的过滤性能。
- 岑芳明王明文王鹏鸣戴玉娟
- 关键词:计算机应用中文信息处理垃圾邮件过滤非线性核偏最小二乘潜在语义
- 一种新的基于中间语义的跨语言信息检索模型被引量:10
- 2009年
- 目前的跨语言信息检索能够使用的方法有四种:查询词翻译的方法、文档翻译的方法、中间语言翻译方法和非翻译的方法。该文对这四种方法进行了简要介绍,提出它们的优缺点,并且提出了一种新的非翻译的方法——基于中间语义的方法。我们对提出来的方法进行了TREC跨语言语料库的试验,并且与单语言的信息检索模型进行了比较。试验证明我们的方法具有很好的性能和健壮性。
- 黄国斌王明文叶浩
- 关键词:跨语言信息检索偏最小二乘TREC
- 基于偏最小二乘特征抽取的垃圾邮件过滤被引量:4
- 2008年
- 随着垃圾邮件逐渐成为网络用户的一大困扰,垃圾邮件过滤技术的研究显得越来越重要。针对电子邮件存在数据极度稀疏性、高特征维数和多重相关性等特点,本文提出了一种基于偏最小二乘原理的特征抽取方法,可以通过对原始特征进行线性组合抽取出既可反映邮件内容又可反映邮件类型的潜在语义特征,并可解决多重相关性问题。在Enron-Spam邮件数据集上的实验结果表明,同χ2特征选择方法相比,该方法在较低维数上可以获取良好的邮件过滤性能。
- 王鹏鸣吴水秀王明文黄国斌
- 关键词:计算机应用中文信息处理垃圾邮件过滤偏最小二乘特征抽取
- 双向聚类迭代的协同过滤推荐算法被引量:16
- 2008年
- 协同过滤是电子商务推荐系统中广泛采用的技术,然而数据稀疏性会影响协同过滤的推荐质量。针对数据稀疏问题提出一种双向聚类迭代的协同过滤推荐算法,对初始得到的用户聚类和项目聚类进行交叉迭代调整,使得聚类簇达到较为稳定的状态。调整后聚类簇的内聚性更强,类之间的区分度更大。实验表明,在调整后的聚类簇中查找邻居将更加准确,可以有效解决数据稀疏问题的影响,有利于提高推荐的准确性。
- 王明文陶红亮熊小勇
- 关键词:计算机应用中文信息处理协同过滤聚类平均绝对偏差
- 个性化推荐系统的研究和实现被引量:10
- 2011年
- 探索Internet的搜索技术和处理针对搜索产生的大量网络信息的个性化推荐技术。在应用中元搜索引擎能充分利用现有的网络技术和资源但需要解决各成员搜索的接口和负载均衡问题;推荐引擎需要解决分词技术、索引词权重、向量空间的相似度计算等几个关键技术。就上述问题进行了分析、评估并寻求解决的办法。在此基础上实现的一个应用于高校教学和科研工作的个性化推荐系统RCSYS,从而促使搜索和推荐技术得到广泛的应用。
- 查大元
- 关键词:个性化推荐元搜索文本分类相似度教学科研
- 基于团模型的文档重排算法研究被引量:2
- 2009年
- 为了满足用户对信息检索结果准确不断提高的需求,尽可能应用那些与查询及检索结果有关的信息进行查询结果优化是一种有效的手段。查询扩展和结果重排就是利用附加信息进行检索结果优化的方法。该文提出了基于文档团的文档重排模型(DCRM模型),此模型通过对文档集的学习,构造文档与文档关系的Markov网络,提取出文档Markov网络中的"文档团",应用文档团信息进行文档重排。在adi、cacm、med、cisi和cran五个数据集上的实验结果表明,本文提出的基于文档团的文档重排模型较BM25模型性能得到有效提高。
- 付剑波王明文罗远胜张华伟
- 关键词:计算机应用中文信息处理MARKOV网络
- 基于改进的隐马尔科夫模型的语音识别方法被引量:20
- 2008年
- 针对隐马尔可夫(HMM)语音识别模型状态输出独立同分布等与语音实际特性不够协调的假设以及在使用段长信息时存在的缺陷,对隐马尔可夫模型进行改进,提出马尔可夫族模型。马尔可夫族模型可看作一个数学上由多个马尔可夫链构成的多重随机过程,HMM模型则是双重随机过程,因而,HMM模型可视为马尔可夫族模型的特例。马尔可夫族模型用条件独立性假设取代了HMM模型的独立性假设。相对条件独立性假设,独立性假设是过强假设,因而,基于马尔可夫族模型的语音模型更符合语音实际物理过程。在马尔可夫族语音识别模型中引入状态段长信息,能自动根据语速对语音单元段长进行调整。非特定人连续语音实验结果表明,利用状态段长信息的改进语音识别模型比经典HMM模型的性能明显提高。
- 袁里驰
- 关键词:隐马尔可夫模型语音识别
- 双向聚类迭代的协同过滤推荐算法
- 协同过滤是电子商务推荐系统中广泛采用的技术,然而数据稀疏性会影响协同过滤的推荐质量。本文针对数据稀疏问题提出一种双向聚类迭代的协同过滤推荐算法,对初始得到的用户聚类和项目聚类进行交叉迭代调整,使得聚类簇达到较为稳定的状态...
- 王明文陶红亮熊小勇
- 关键词:协同过滤聚类MAE
- 文献传递
- 基于用户日志聚类的查询扩展模型
- 如何提高检索精度,为用户提供高质量、高相关度的查询结果,是信息检索领域中最重要的问题。查询扩展是解决此问题的主要方法之一。本文提出了一种基于用户查询日志的查询扩展模型,此模型根据用户查询日志进行聚类,对一个新查询先计算其...
- 吴京慧余珊珊王明文
- 关键词:查询扩展查询日志聚类
- 文献传递