华秀丽
- 作品数:4 被引量:49H指数:2
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金江苏省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 语义分析与词频统计相结合的中文文本相似度量方法研究被引量:44
- 2012年
- 基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。
- 华秀丽朱巧明李培峰
- 关键词:向量空间模型语义分析词频文本相似度
- 细粒度科技论文摘要句子分类方法被引量:3
- 2012年
- 以科技论文摘要句子为研究对象,提出一种两阶段的细粒度句子分类方法,通过结合摘要内各个句子的位置、关键词和上下文信息,选择部分易于分辨语境类型的句子,将其作为种子样本训练获得分类模型。利用机器学习的方法对摘要句子的背景知识、论文主题、研究方法和实验结果进行自动分类。实验结果表明,该方法中的F度量值比其他细粒度分类方法平均高3%~5%。
- 华秀丽徐凡王中卿李培峰
- 关键词:细粒度语境
- 无监督中文名词短语指代消解研究被引量:1
- 2012年
- 为减小语料库对中文指代消解的影响,设计一个基于无监督聚类的中文名词短语指代消解平台并给出其预处理、特征选择及聚类过程。采用3种评测工具对中文新闻语料进行评测,在自动情况下,平均F值为59.43%。实验结果表明,该中文指代消解平台能够较好地解决中文缺少语料库的问题。
- 高俊伟孔芳朱巧明李培峰华秀丽
- 关键词:名词短语指代消解聚类自然语言语料
- 文本抄袭检测方法研究
- 随着网络技术的飞速发展,信息共享度不断升级,一方面为人们获取资料提供了方便,另一方面也为抄袭、剽窃、非法扩散等不道德行为提供了可乘之机。文本抄袭检测技术逐渐成为自然语言处理领域中一项重要的研究课题。
内部抄袭检测...
- 华秀丽
- 关键词:抄袭检测语义分析
- 文献传递