顾晓雪
- 作品数:5 被引量:16H指数:2
- 供职机构:南京理工大学经济管理学院更多>>
- 发文基金:教育部人文社会科学研究基金国家社会科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 多语言社会化标签聚类及可视化研究
- 协同标注系统(folksonomy)是Web2.0网站中由相互关联的用户、资源和标签组成的注释结果的一个集合,其重要基础是:一个用户可以自定义多个用户标签来描述网络资源。通常的社会化标签系统中标签是用户标注的结果,也有一...
- 顾晓雪
- 关键词:社会化标签可视化WEB文本聚类
- 文献传递
- 区分标签质量的机器生成标签聚类研究被引量:2
- 2015年
- 【目的】常规的标签或词语聚类没有考虑聚类对象的质量差异对聚类效果的影响,本文旨在分析不同质量的机器生成标签的聚类效果差异,并提出融合标签质量的标签聚类算法优化建议。【方法】首先,抓取Engadet中英文博客数据,对其进行数据预处理得到候选标签,抽取标签社会化特征与内容特征并进行权重计算,采用两种标签质量区分策略,得到不同质量的标签集合;然后,对不同质量的标签集合进行相似度计算,使用AP算法进行聚类,分析比较它们的聚类结果。【结果】实验结果表明,对于中英文标签,Top5标签聚类结果要优于Top5-10标签聚类结果,加权社会化属性标签聚类结果优于不加权社会标签聚类结果。【局限】区分标签质量的方法比较单一,缺乏评价标签质量的有效方法。【结论】高质量的机器生成标签聚类结果比低质量的标签聚类结果更好,对标签的社会化属性的加权能够提高机器生成标签的聚类效果,且社会化属性可以作为区分标签质量的特征之一。
- 章成志顾晓雪
- 标注内容与用户属性结合的标签聚类研究被引量:4
- 2015年
- 【目的】研究标签聚类中标注内容与用户属性及其结合对聚类效果的影响。【方法】采用科学网博客数据,对其进行特征抽取、模型构建和相似度计算,利用线性函数和Sigmod函数进行相似度加权,并使用AP聚类算法进行标签聚类。【结果】在学科分类体系下,用户属性与标注内容的结合均对标签聚类的结果有所提升,Sigmod加权表现最优;在系统分类体系下,两者结合均不如标注内容结果表现优秀。【局限】选择的数据量较小,评估标签聚类的分类体系不够完善,AP聚类算法不适用于大数据的处理。【结论】两种特征的结合在部分情况下能够提高聚类效果,标签聚类中应更加关注标签的内容特征。
- 顾晓雪章成志
- 结合内容和标签的Web文本聚类研究被引量:8
- 2014年
- 【目的】探索社会标签与文本内容的结合对文本聚类的影响。【方法】采用Engadget中英文博客数据,使用TF×IDF、Text Rank、Text Rank×IDF三种特征抽取方法,线性函数和Sigmod函数进行相似度加权,AP算法进行聚类。【结果】结果表明,TF×IDF的聚类效果最好,两种加权对英文博文聚类有不同程度的改善,但在中文博文聚类中,Sigmod加权结果稍有下降,线性加权比Sigmoid加权方法效果更好。【局限】没有找出标签相似度与内容相似度最佳的权重系数。AP聚类算法不能应用于大数据,聚簇过多影响聚类结果的展示。【结论】社会标签与文本内容相似度的线性加权能改善Web文本聚类结果。
- 顾晓雪章成志
- 关键词:社会标签文本聚类
- 中文博客标签的聚类及可视化研究被引量:1
- 2014年
- 文章选取科学网博文的两类标签为研究对象,用户生成标签和用TEXTRANK算法产成机器生成标签,对标签进行统计处理后生成各自的标签词典,根据标签词典用两种相似度计算方法 (余弦向量法和欧式距离法)对标签进行相似度计算,用开源的AP聚类算法对两种不同来源的标签进行聚类,并使用可视化工具对聚类标签进行展示,最后对两种标签聚类结果进行了相应的比较和描述。研究发现,用户生成标签的聚类结果比机器生成标签的聚类结果要更分散,能够通过标签聚类发现一些主题。
- 顾晓雪章成志
- 关键词:可视化