章成志
- 作品数:216 被引量:1,734H指数:24
- 供职机构:南京理工大学经济管理学院信息管理系更多>>
- 发文基金:国家社会科学基金教育部人文社会科学研究基金“十一五”国家科技支撑计划更多>>
- 相关领域:文化科学自动化与计算机技术经济管理语言文字更多>>
- 基于社交媒体的高影响力跨学科用户发现研究被引量:9
- 2017年
- 社交媒体环境中非正式学术交流与正式学术交流相互补充,已共同构成了有机的科学交流整体,探讨社交媒体中跨学科高影响力用户不仅可以作为正式交流中结构规律认识的补充与完善,还有助于社交媒体上普通用户或新用户快速与高影响力用户交流寻得帮助。但现有跨学科用户研究大多依据科技文献来进行,并不能有效地发现社交网络上跨学科用户。为此,我们结合科技文献的领域分类语料,在科学网博客平台上进行跨学科高影响力用户发现。首先我们基于领域科技文献语料,完成科学网博文的学科领域划分,然后根据博文的学科分类计算用户学科属性及跨学科专业度,最后根据用户跨学科高影响力模型得到跨学高影响力科用户。这为社交媒体上跨学科用户发现提供了一定的借鉴。
- 吴小兰章成志
- 关键词:跨学科研究社交媒体
- 数字资源整合模式的比较研究被引量:9
- 2006年
- 本文依据信息资源的存储与检索方式,将信息资源整合大体分为实体法与虚拟法这两种模式,并对这两种模式进行详细说明;然后分别描述和比较两种数字资源整合模式下的信息资源整合系统架构及功能特点,指出各自的优势和不足;最后结合两种模式的优点,提出数字资源整合的综合解决方案。
- 苏兰芳章成志朱超
- 关键词:信息资源
- 文本聚类结果描述研究综述被引量:4
- 2009年
- 首先对文本聚类结果描述的研究背景和相关的研究情况进行说明,分析自动标引、自动文摘、概念聚类与文本聚类结果描述的关系,定位文本聚类结果描述的研究内容;然后根据文本聚类结果描述的具体要求,对该问题进行形式化;最后给出文本聚类结果描述的评价方法。
- 章成志
- 关键词:文本聚类文本挖掘
- 基于自动问卷生成及答案抽取的在线旅游用户满意度调研方法研究
- 随着旅游业与Web2.0的发展,涌现出越来越多旅游网站以及网站用户.网站想要了解用户的满意程度,同时用户也想选择他们更加满意的旅游路线.针对这一目标,当前很多研究借助于问卷调查的方式,得出用户满意度结果.此类方法操作简单...
- 周清清章成志
- 关键词:旅游网站用户满意度情感分析
- 基于主题聚类的学科研究热点及其趋势监测方法被引量:20
- 2010年
- 常规的学科热点及趋势监测方法存在监测成本高、监测信息相对滞后等问题。因此需要寻求较低成本、较快速的方法进行学科热点和趋势的监测,以保证监测系统提供信息的时效性。本文以图书情报档案学科为例,依据学科学术论文全文,从主题角度对学术论文集合进行全面分析,即:采用主题聚类方法,对包括时间信息的学科学术全文进行主题分析与主题聚类,归纳出某一特定学科的研究热点和这些热点的发展趋势。实验结果表明,基于主题聚类的学科热点及其趋势监测方法,其监测结果在很大程度上接近于常规方法的监测结果,但基于主题聚类的监测方法,在监测成本和监测信息时效方面得到改善。
- 章成志梁勇
- 关键词:主题聚类主题抽取文本聚类
- 区分标签质量的机器生成标签聚类研究被引量:2
- 2015年
- 【目的】常规的标签或词语聚类没有考虑聚类对象的质量差异对聚类效果的影响,本文旨在分析不同质量的机器生成标签的聚类效果差异,并提出融合标签质量的标签聚类算法优化建议。【方法】首先,抓取Engadet中英文博客数据,对其进行数据预处理得到候选标签,抽取标签社会化特征与内容特征并进行权重计算,采用两种标签质量区分策略,得到不同质量的标签集合;然后,对不同质量的标签集合进行相似度计算,使用AP算法进行聚类,分析比较它们的聚类结果。【结果】实验结果表明,对于中英文标签,Top5标签聚类结果要优于Top5-10标签聚类结果,加权社会化属性标签聚类结果优于不加权社会标签聚类结果。【局限】区分标签质量的方法比较单一,缺乏评价标签质量的有效方法。【结论】高质量的机器生成标签聚类结果比低质量的标签聚类结果更好,对标签的社会化属性的加权能够提高机器生成标签的聚类效果,且社会化属性可以作为区分标签质量的特征之一。
- 章成志顾晓雪
- 标注内容与用户属性结合的标签聚类研究被引量:4
- 2015年
- 【目的】研究标签聚类中标注内容与用户属性及其结合对聚类效果的影响。【方法】采用科学网博客数据,对其进行特征抽取、模型构建和相似度计算,利用线性函数和Sigmod函数进行相似度加权,并使用AP聚类算法进行标签聚类。【结果】在学科分类体系下,用户属性与标注内容的结合均对标签聚类的结果有所提升,Sigmod加权表现最优;在系统分类体系下,两者结合均不如标注内容结果表现优秀。【局限】选择的数据量较小,评估标签聚类的分类体系不够完善,AP聚类算法不适用于大数据的处理。【结论】两种特征的结合在部分情况下能够提高聚类效果,标签聚类中应更加关注标签的内容特征。
- 顾晓雪章成志
- 基于样本加权的文本聚类算法研究被引量:10
- 2008年
- 样本加权聚类算法是一种最近才引起人们注意的算法,还存在一些需要解决的问题,例如,聚类对象之间的结构信息对样本加权聚类是否有帮助,如何将结构信息自动转换为样本或对象的权重?针对该问题,本文以学术论文为聚类对象,以K-Means算法为聚类算法基础,利用论文之间的引用关系计算每篇论文的PageRank值,并将其作为权重,提出一种基于样本加权的新的文本聚类算法。实验结果表明,基于论文PageRank值加权的聚类算法能改善文本聚类效果。该算法可推广到网页的聚类中,利用网页的PageRank进行加权聚类,来改善网页的聚类效果。
- 章成志师庆辉薛德军
- 关键词:文本聚类PAGERANK被引频次
- Hashtag研究综述被引量:6
- 2015年
- 【目的】分析当前Hashtag研究思路和技术,归纳和总结当前Hashtag研究中所存在的问题,并提炼Hashtag研究的理论意义与实际意义,为更深入的Hashtag研究提供参考。【文献范围】以2007年至2015年的国际会议和国内外期刊的60篇文献作为主要研究对象。【方法】调研Hashtag研究及其应用的相关文献,对Hashtag研究中各环节涉及的方法进行分析和总结。【结果】Hashtag在用户使用、Hashtag挖掘与基于Hashtag的应用研究三方面存在一些可以深入研究的问题。【结论】未来应侧重于Hashtag的理论研究,如用户标注Hashtag的动机、影响Hashtag标注的因素等。在实际应用中,结合不同学科方法和多个领域的技术改善Hashtag在实际应用中的效果。
- 邵健章成志李蕾
- 关键词:文本挖掘社会化标签情感分类
- 基于双语URL匹配模式可信度的平行网页识别研究被引量:3
- 2018年
- 平行语料是自然语言处理中一项重要的基础资源,在双语平行网页中大量存在。该文首先介绍双语URL匹配模式的可信度计算方法,然后提出基于局部可信度的双语平行网页识别算法,再依据匹配模式的全局可信度,提出两种优化方法:即利用全局可信度,救回因低于局部可信度阈值而被初始算法滤掉的匹配模式;通过全局可信度和网页检测方法,挖出深层网页。进一步,结合网站双语可信度、链接关系,侦测出种子网站周边更多较具可信度的双语网站。除了双语URL匹配模式自动识别,还利用搜索引擎,依据少数高可信度的匹配模式快速识别双语网页。为了提高以上五种方法识别候选双语网页对的准确率,计算了候选双语网页对的双语相似度,并设置阈值过滤非双语网页对。通过实验验证了所提方法的有效性。
- 章成志马舒天揭春雨揭春雨
- 关键词:平行语料库