吴小松
- 作品数:6 被引量:45H指数:2
- 供职机构:四川大学计算机学院更多>>
- 发文基金:国家自然科学基金国家科技支撑计划国家242信息安全计划更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于主题遗传的在线主题建模方法
- 本发明公开了一种基于主题遗传的在线主题建模方法,包括抓取当前时间片文本数据,按照LDA模型进行主题建模,计算主题强度,主题排名,计算主题的遗传因子,抓取下一个时间片文本数据,转换主题-单词分布向量,计算下一个时间片Dir...
- 陈兴蜀吴小松王文贤杜敏
- 文献传递
- 一种基于Solr的HBase海量数据二级索引方案被引量:15
- 2017年
- 针对HBase不提供二级索引和华为的hindex方案难以满足海量数据检索速度需求的问题,文章设计了基于Solr的HBase二级索引方案SIHBase(Solr Indexing HBase)。该方案使用HBase的Coprocessor(协处理器)为数据表的创建、修改、删除以及数据的插入、更新、删除和恢复等操作都实现了相应的回调函数,通过回调函数向Solr发送相关请求,以实现在Solr中自动为HBase建立和维护二级索引,保证数据与索引的一致性。该方案具有良好的通用性,可以同时为多张表的多列数据建立索引。该方案扩展了HBase的客户端功能,增加了直接查询Solr的接口,利用Solr提供的高效、灵活、多样的检索功能实现对HBase海量数据的快速检索。最后,与hindex进行了二级索引的查询性能对比实验,证明了该方案在查询速度上要远快于hindex。
- 王文贤陈兴蜀王海舟吴小松
- 关键词:HBASESOLR
- P2P网络电视系统内容污染安全问题研究综述
- 近年来,随着P2P技术的日益成熟,基于P2P技术的网络电视系统逐渐流行并取得了巨大成功,但随之而来的安全问题引起了国内外学者的广泛关注。其中,针对P2P网络电视系统的内容污染问题研究已经成为了P2P安全领域的一个重要研究...
- 王海舟陈兴蜀王文贤吴小松
- 关键词:P2P技术网络电视网络安全
- 文献传递
- 基于特征关联度的K-means初始聚类中心优化算法被引量:29
- 2015年
- 针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法。由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用"或运算"合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合"最小最大"原则从候选集中选取最优的初始中心。在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显优于Mahout提供的K-means算法,表明该算法可选出高质量的初始聚类中心,得到更好的聚类结果。
- 陈兴蜀吴小松王文贤王海舟
- 关键词:K-MEANS初始聚类中心文本聚类
- 基于度排序的P2P IPTV分布式爬虫系统设计与实现被引量:1
- 2014年
- 为了开发一款面向P2P网络电视主动测量研究的高性能爬虫系统,提出了一种基于节点度排序的节点信息爬行算法。该算法首先使用类似广度优先遍历的策略对网络电视覆盖网进行节点信息的初始爬行,然后对爬行结果获得的节点列表进行基于节点度大小的排序,最后将排序后的结果作为输入提供给分布式爬虫以实施节点信息的实时采集。实验结果表明,基于度排序的分布式爬虫系统相比现有的其他爬虫具有更快的爬行速度,该爬虫可以在30 s左右完成对一个拥有7 200左右用户规模的流行节目的爬行,为采集准确的PPTV节点信息快照并实施主动测量研究提供了解决方案。
- 王海舟陈兴蜀王文贤吴小松
- 关键词:P2P技术分布式架构爬虫系统
- P2P网络电视系统内容污染安全问题研究综述
- 近年来,随着P2P技术的日益成熟,基于P2P技术的网络电视系统逐渐流行并取得了巨大成功,但随之而来的安全问题引起了国内外学者的广泛关注。其中,针对P2P网络电视系统的内容污染问题研究已经成为了P2P安全领域的一个重要研究...
- 王海舟陈兴蜀王文贤吴小松
- 关键词:P2P技术网络电视网络安全