南京信息工程大学科研基金(SK20080153)
- 作品数:3 被引量:20H指数:2
- 相关作者:张艳潘吴斌更多>>
- 相关机构:南京信息工程大学更多>>
- 发文基金:南京信息工程大学科研基金更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 一个RSS级别的网页主题内容抽取方法与系统被引量:1
- 2010年
- 提出一个RSS级别的网页主题内容抽取方法与系统,利用RSSfeed中的少量entry信息训练得到主题内容模板,通过模板可以对RSSfeed下的所有网页进行主题内容抽取。该方法支持分别抽取网页的标题、正文、类别等信息;另外,该方法有自适应机制,能实时侦测模板的变化。从实验结果来看,该方法和系统有很高的召回率和准确率。
- 张艳
- 关键词:RSS自适应机制
- 基于云存储的图书馆海量数字资源存储研究与设计被引量:16
- 2012年
- 随着图书馆数字资源的飞速增长,海量资源存储已经成为图书馆自动化的一大难题。文章在阐述图书馆数字资源存储现状,分析云存储给数字图书馆建设带来好处的基础上,提出了一个基于开源云计算Hadoop的分布式文件系统HDFS与分布式存储系统HBase相结合的图书馆资源存储架构,并深入探讨了云存储系统中的关键组件。
- 张艳潘吴斌
- 关键词:云计算数字图书馆HADOOP
- 基于Hadoop的数字图书馆云检索系统的设计与实现被引量:3
- 2014年
- 在阐述图书馆检索系统现状、分析云检索系统给图书馆带来好处的基础上,提出了一个基于开源云计算Hadoop的分布式文件系统HDFS、分布式计算模型MapReduce和分布式数据仓库Hive相结合的图书馆信息检索平台,探讨了云检索系统中的关键组件,实验结果显示该系统在大规模数据检索方面具有很好的性能。
- 张艳潘吴斌
- 关键词:云计算数字图书馆HADOOP