高兆远
- 作品数:2 被引量:2H指数:1
- 供职机构:安徽大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金安徽省自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于文本聚类的新闻采集分析系统设计与应用被引量:1
- 2015年
- 随着互联网的飞速发展,网络上新闻信息越来越繁杂,采集有用数据过滤冗余数据变得十分重要,但目前市面上流行软件并不能过滤冗余新闻。采用网络爬虫、中文分词、向量空间模型、文本聚类等技术可设计一个能自动采集新闻并能将所得信息自动聚类的系统,并且通过真实新闻数据验证了该系统的有效性,证明其能帮助用户发现、过滤重复新闻、相似新闻,并能提取热点新闻,提高用户阅读新闻的效率。
- 高兆远程珂张燕平段震
- 关键词:文本聚类向量空间模型网络爬虫文本相似度
- 基于覆盖的社团发现算法被引量:1
- 2013年
- 社团结构是复杂网络普遍存在的拓扑特性之一,发现复杂网络中的社团结构是复杂网络研究的基础性问题,近年来受到广泛关注,涌现出一批新颖的算法,但时间复杂度和准确率仍然是大规模复杂网络社团结构分析算法面临的两个主要问题.提出一种新的基于覆盖的社团发现算法,该算法的时间复杂度低,得到的社团结构准确率高,并且有效避免了一些经典算法无法识别小于一定粒度社团的问题.首先,以每个节点为中心构造覆盖,并提取其中的一部分覆盖以达到一定的覆盖率;其次,对提取的覆盖进行合并处理;最后,对重复覆盖和未覆盖到的节点做邻居节点投票划分.算法的时间复杂度为O(n2),实验部分测试了算法的准确率,并同标签传播算法(Label Propagation Algorithm,LPA)和Newman快速算法(NFA)作了比较.测试结果显示了本文算法的有效性,在已知社团结构的Zachary数据集上得到与实际完全一致的结果,在未知结构数据集上的Q值也高出LPA算法.
- 张燕平汪洋赵姝段震高兆远
- 关键词:复杂网络社团发现