国家自然科学基金(61063032) 作品数:23 被引量:56 H指数:4 相关作者: 蒙祖强 覃华 周石泉 黄柏雄 许珂 更多>> 相关机构: 广西大学 广西工业职业技术学院 江西师范大学 更多>> 发文基金: 国家自然科学基金 广西教育厅科研项目 广西壮族自治区自然科学基金 更多>> 相关领域: 自动化与计算机技术 文化科学 更多>>
结合语义和文本特征位串的高效KNN算法 被引量:1 2013年 为了有效提高文本分类的效率,提出了一种基于语义相似的改进KNN算法。该算法结合了特征词的语义和文本的特征位串,由于考虑到文本向量中同义的关联特征词对文本相似度的贡献,有效地提高了文本分类的准确率和召回率;而基于文本特征位串进行的位计算方法,能从大量的训练文本集中筛选出可能的相似文本,较好地克服了KNN算法计算量大的问题。算法的分析与实验表明,改进的算法明显提高了KNN的计算效率,同时也提高了分类的准确率和召回率。 林啟锋 蒙祖强 陈秋莲 陈智敏关键词:语义关联 K最近邻算法 文本分类 ASP.NET环境下Hessian协议Web服务技术的研究 被引量:2 2011年 ASP.NET中采用的Web服务技术是基于XML+SOAP协议实现,具有学习起点高、推广难度大等问题。Hessian协议是一种新的Web服务技术,本文着重研究Hessian协议的Web服务在ASP.NET环境下的一般实现过程,为工程实际应用提供另一种选择方案。 董婕 覃华关键词:ASP.NET WEB服务 HESSIAN协议 一种基于D^2权重的核k-means聚类算法 被引量:1 2012年 核k-means算法是标准k-means算法的扩展,提高了k-means聚类中对非线性不可分数据的聚类效果.传统核k-means算法的初始中心是随机选取的,导致出现聚类时间较慢、聚类性能低等问题.文中提出了一种基于D2权重的核k-means算法,它根据点对簇内距离的贡献,选取对其贡献最大的点为簇中心,然后在核空间内进行相应的聚类.在UCI数据集上进行实验,实验结果表明,新算法相对于传统的核k-means算法,可以有效地缩短聚类时间,并提高聚类的质量,新算法性能优于传统的核K-means算法. 马翩翩 苏一丹 覃华 王晓帅关键词:K-MEANS 商空间框架下的大规模SVM数据集约减法 2013年 借助商空间框架下的粒度分析理论及其计算方法,提出将"粒度"的概念用于大规模SVM数据集的约减来建立商空间框架下的约减模型。该约减模型的约减方向是由远及近地向分类超平面削减,其削减幅度也伴随集合的缩小而由粗到细逐渐变化。同时,给出该模型的一种实现。实验证明,商空间框架下的SVM约减模型比普通SVM约减模型的压缩效果更好。 覃希 苏一丹 张雯关键词:商空间 粒度 支持向量机 用子空间粒子群聚类算法识别Folksonomy标签冗余的研究 2012年 Web2.0标签系统中经常包含很多冗余的标签,标签冗余会增加用户选择喜好项目时的负担,从而影响用户建模和对推荐系统的评估。标签数据集通常存在着大量不相关或是冗余的特征,而不同簇之间的相关特征子集又是不一样的,所以应该从不同的特征子集中来发现簇。提出使用子空间粒子群聚类识别标签冗余,算法采用指数型变权类似K-means的目标函数,该函数对变量权值的改变更加敏感。在此基础上利用粒子群优化目标函数搜寻得到全局最优的标签聚类,提高抽取冗余标签的准确度。实验结果表明,此算法具有较强的全局搜索能力,应用于标签冗余识别获得了更好的精度。 王晓帅 覃华 丁立朵 马翩翩基于多线程技术的分辨函数析取范式生成算法 被引量:2 2013年 基于分辨矩阵计算信息系统的所有约简,都需要将合取范式转化为析取范式,但是该转化过程存在组合爆炸问题。为解决该问题,根据合取范式、合取运算和析取运算的特点,构建析取范式转化的并行模型,提出基于多线程技术的分辨函数析取范式生成算法,利用Windows的自动线程调度功能提高范式转换的效率。实验结果表明,该算法的析取范式转化效率会随着合取范式长度的增加而提高,适合在多核CPU计算机上运行。 蒙祖强 周石泉 黄柏雄关键词:属性约简 多线程技术 析取范式 基于时间依赖的物联网络模型的路径规划 被引量:2 2013年 本文针对基于物联网的物流网络中路径代价的时变性,建立一种时间依赖的物联网络模型,并在此基础上研究物流路径规划问题。针对现实中预测准确性随时间推移而降低,以及在预知程度较低时无法获得较好的路径规划等问题,提出一种带弧代价预知程度参数的最小时间路径算法SW PL以及基于SW PL的逐步规划解决方案。该算法考虑了预测的精度问题,在传统Dijkstra算法的基础上引入一种与时间相关的弧代价计算方法。实验表明,在预知程度较高和在预知程度较低但采用逐步规划的解决方案2种情况下,都能取得良好的路径规划效果。 杨俊瑶 蒙祖强关键词:物联网 路径规划 时间依赖网络 一种新的网络热点话题提取方法 被引量:6 2013年 网络热点话题提取是网络舆情分析的重要手段,已成为信息检索领域研究的热点内容之一.传统聚类方法因其聚类结果不允许相交等因素,暴露了其在基于(主题)词聚类进行话题发现中的诸多缺点.本文基于小世界理论建立词的共现网络模型并去除大量冗余词,然后运用极大相容块技术并基于过滤后的词共现网络实现对相交话题的提取,获取网络热点话题.本文方法与传统聚类方法有本质区别,基于(主题)词聚类进行话题发现具有独特的优势,较好克服了已有方法的缺点.实验说明了本文方法对提取网络热点话题是有效和可行的,比同类算法具有更好的性能,且具有较好的可伸缩性. 蒙祖强 黄柏雄关键词:词聚类 文本聚类 不完备不一致决策系统的最大分布约简及计算方法 被引量:1 2011年 不完备不一致决策系统中,条件属性下的相容划分与决策属性下的等价划分形成了复杂的交集,导致出现了多种不同的约简概念,从而使约简问题变得更加复杂。本文将最大分布约简的概念引入不完备不一致决策系统中,然后研究其在不完备不一致决策系统中的性质,发现其核属性不具备传统约简核属性通常所具备的继承特性,因而不能通过增加属性的方法来计算此类约简。但是通过不断的属性测试和删除操作,成功地构造了不完备不一致决策系统中计算最大分布约简的算法,并给出了算法的描述和复杂度分析。通过实例分析,本文算法是有效的且具有实际意义。 蒙祖强 许珂 周石泉关键词:决策系统 不完备性 最大分布约简 基于语义关联和信息增益的TFIDF改进算法研究 被引量:8 2012年 基于词频反文档频率(term frequency inverse document frequency,TFIDF)的现有文本特征提取算法及其改进算法未能考虑类别内部词语之间的语义关联,如果脱离语义,提取出的特征不能很好地刻画文档的内容。为准确提取特征,在信息熵与信息增益的基础上,加入词语的语义关联因素,实现融合语义信息的特征提取,进而提出语义和信息增益相结合的TFIDF改进算法,该算法弥补了统计方法丢失语义信息的弊端。实验结果表明,该算法有效地提高了文本分类的精准率。 许珂 蒙祖强 林啓峰关键词:特征提取 语义关联 信息增益 文本分类