教育部人文社会科学研究基金(07JC870006) 作品数:15 被引量:80 H指数:6 相关作者: 赵俊杰 胡学钢 张红鹰 张燕平 王平水 更多>> 相关机构: 安徽财经大学 合肥工业大学 安徽大学 更多>> 发文基金: 教育部人文社会科学研究基金 国家自然科学基金 国家重点基础研究发展计划 更多>> 相关领域: 自动化与计算机技术 文化科学 政治法律 自然科学总论 更多>>
论文抄袭检测中特征选择 被引量:3 2009年 选取多少个最佳特征以及采用什么评估函数,针对不同的问题选取策略也有所不同。针对论文抄袭检测问题,如何确定特征选择数量和选择评估函数是文章研究的目的。在分析论文抄袭的主要形式和手段基础上,针对文本内容抄袭,阐述了文本特征表示的主要方法和特征选择常用策略,最后对实验结果进行分析,得出基本结论。 赵俊杰关键词:抄袭检测 文本表示 向量空间模型 一种基于段落词频统计的论文抄袭判定算法 被引量:12 2009年 解决论文抄袭的判定问题不但可以减轻审稿人员的工作负担,而且对于提高学术论文质量、净化学术领域、防止学术腐败都有很重要的意义。从抄袭的定义和法律规定出发,在分析比较国内外主要的论文抄袭判定方法基础上,提出存在的问题和改进策略,然后给出一种基于段落词频统计的论文抄袭判定算法。此算法不但可以检测出抄袭者成段抄袭的情况,而且可以检测出段落中语句顺序改变、段落内容压缩和扩充的情况,若疑似抄袭还可以将抄袭论文和被抄袭论文的相似内容输出,方便用户进一步审查。 赵俊杰 胡学钢关键词:词频统计 中文分词 WCBVSM与SACA结合的文本分类模型 被引量:3 2012年 给出了一个词共现改进的向量空间模型(Word Co-Occurrence Mode Based On VSM,WCBVSM)与模拟退火交叉覆盖算法(Cross Cover Algorithm Based On Simulated Annealing Algorithm,SACA)相结合的文本分类新模型。传统的向量空间模型(VSM)采用词条作为文档的语义载体,没有考虑文本上下文词语之间的语义隐含信息,在词共现模型的启发下,提出WCBVSM,它通过统计文本中的词共现信息,加入VSM,以获得文档隐含的语义信息。针对交叉覆盖算法中识别精度与泛化能力之间的一对矛盾,结合模拟退火算法的思想,提出了SACA,改进了传统交叉覆盖在覆盖初始点选取时的随机性,并通过增加每个覆盖所包含的样本点来减少覆盖数,从而增强了覆盖的泛化能力。实验结果表明提出的文本分类新模型在加快识别速度的基础上,提高了分类的精度。 张燕平 刘超 曲永花关键词:文本分类 向量空间模型 词共现模型 模拟退火 交叉覆盖算法 学术论文抄袭检测方法研究综述 被引量:3 2010年 从学术论文抄袭的现象和危害出发,分析归纳了学术论文抄袭的主要类型及形式。接着从论点抄袭、文本抄袭、算法与程序代码抄袭和图片与公式抄袭等几个方面,综述了近阶段所采用的主要抄袭检测方法。最后概述了解决论文抄袭检测问题的重要意义,并对如何防止学术论文抄袭提出建议。 赵俊杰关键词:抄袭检测 文本相似度 词频统计 数字指纹 图像匹配 网络环境中消费者隐私权面临的挑战与对策 被引量:8 2009年 加强网络环境下消费者隐私权保护是促进电子商务发展的必然要求。在电子商务环境中,消费者隐私权既体现为人格权,又体现为信息财产权,其受侵害的主要形式是个人信息被任意收集、被再次开发利用和非法转让。针对中国目前没有明确的保护隐私权的法律条款的现状,中国应建立收集个人信息的主体许可制度,确立个人数据收集使用的基本原则,科学设置免责条款。 彭惠梅 甘守义关键词:网络 消费者 隐私权 名誉权 基于特征加权的KNNFP改进算法及在故障诊断中的应用 被引量:2 2011年 针对传统K最近邻特征投影(KNNFP)算法中假设各维特征对分类的贡献相同而导致分类性能下降的问题,提出一种基于特征加权的KNNFP改进算法(WKNNFP)。改进算法利用ReliefF算法确定特征的权值,使样本的分类效果更好,同时还可以分析各特征对分类的贡献程度,并利用改进算法对轴承故障进行诊断。结果表明,改进算法的诊断率优于传统的KNN和KNNFP算法。 赵俊杰关键词:特征加权 故障诊断 一种用于关键词检索的快速字符串精确匹配算法 被引量:7 2010年 在对BF算法、KMP算法、BMH算法、SUNDAY算法和ZZL算法等几种常见算法分析的基础上,提出一种用于关键词检索的快速字符串精确匹配算法,并通过实验得出基本结论。最后指出模糊匹配和精确匹配的主要区别并对全文总结。 赵俊杰关键词:关键词检索 本科毕业论文抄袭的检测与防范 被引量:14 2010年 近年来,本科生毕业论文质量不高且抄袭严重的现象已为大多数高校所关注。本文剖析了本科毕业论文抄袭现象的成因,介绍了现阶段检测本科毕业论文抄袭的常用手段,并提出了相应的防范措施。 赵俊杰关键词:本科毕业论文 抄袭检测 基于词共现模型的垃圾邮件过滤方法研究 被引量:4 2009年 垃圾邮件过滤就是对邮件做出是垃圾或非垃圾的判断。传统的表示邮件的方法是在向量空间模型基础上通过信息增益等特征选择方法提取一部分词来表示邮件内容,存在语义信息不足的问题。该文提出一种将传统方法和词共现模型结合起来表示邮件特征的新方法,再采用交叉覆盖算法对邮件进行分类得到邮件分类器。实验表明,该文提出的邮件过滤算法与传统方法相比提高了过滤性能,词共现选择的维度要比传统方法选择的维度更具有代表性。 张燕平 史科 徐庆鹏 谢飞关键词:计算机应用 中文信息处理 向量空间模型 垃圾邮件过滤 词共现模型 交叉覆盖算法 基于文本分类的文档相似度计算 被引量:7 2008年 如何从成千上万篇文档中找出与指定文档相似的所有文档,首先要做的第一件事就是判断其类别,也就是分类;在判定类别后,再进一步计算,找出同类中所有与指定文档内容相似的文档。由于文档相似度的计算和文本分类过程很相似,所以可以借助指定文档的分类结果,即类别和文档特征向量值,通过进一步计算与同类中其他文档的相似度值,找出超过阈值的文档,即找出与指定目标内容相似的文档。 赵俊杰 胡学钢关键词:文本分类 相似度 向量空间模型 KNN