河北省科技支撑计划项目(10213588)
- 作品数:2 被引量:12H指数:2
- 相关作者:许云峰张妍张立全更多>>
- 相关机构:河北科技大学中国铁通集团有限公司河北分公司更多>>
- 发文基金:河北省科技支撑计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于云计算的中文分词研究被引量:5
- 2012年
- 通过搭建Hadoop平台,将MapReduce编程思想应用到中文分词的处理过程中,使中文分词技术在云计算环境中实现。研究可以在保证原来分词准确率的基础上,显著提高中文分词的处理速度。
- 张妍许云峰张立全
- 关键词:中文分词云计算HADOOPMAPREDUCE
- 基于云计算的商业情报采集系统被引量:7
- 2012年
- 商业情报采集系统不同于传统的搜索引擎系统,情报具有时效性、针对性等特点,传统搜索引擎中的数据分类和聚类技术不能完全满足商业情报采集过程中对时效性和针对性的特殊需求。提出一种商业情报采集解决方案,在云计算环境中采用贝叶斯分类算法和多种网页去重、提取等算法,实现对互联网数据的实时性抓取、分析、分类、聚类,形成对用户全方位立体化的情报本体,抓取的海量数据采用分布式文件系统存储,采集的情报用基于云的数据库CouchDB存储。
- 许云峰张妍赵铁军
- 关键词:搜索引擎聚类云计算