王一帆
- 作品数:2 被引量:2H指数:1
- 供职机构:北京师范大学信息科学与技术学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向中文搜索引擎的网页结构化信息获取系统的设计与实现
- 2016年
- 搜索引擎是一种特殊的检索系统,其信息来源于互联网,处理的格式大多为HTML,而中文搜索引擎相比英文搜索引擎在编码、分词等问题上都有其自身特点。笔者针对中文搜索引擎提出了一种网页结构化信息获取系统的设计方案,并使用Python语言实现。该系统由网页抓取、网页信息提取、敏感词过滤三部分组成,最后可获得结构化的网页有效信息。其中,网页抓取采用宽度优先搜索的策略;网页信息提取部分采用基于标签的文本提取方法;敏感词过滤部分针对中文特点提出了一种过滤算法,该算法在模式串长度较短的情况下平均复杂度为O(n)。实践证明,该系统与Lucene等检索系统结合即可提供中文搜索引擎服务。
- 吕青松曹书林王一帆尹乾郑新
- 关键词:搜索引擎网页抓取信息提取PYTHON
- 基于Lucene与Socket通信的中文搜索引擎的设计与实现被引量:2
- 2017年
- Lucene是一个用Java写的全文检索引擎工具包,面向对象多层封装,提供了一个低耦合、与平台无关的、可进行二次开发的全文检索引擎架构,是这几年最受欢迎的信息检索程序库;基于流式Socket的网络编程是设计网络通信程序的一种有效方法。本文基于Lucene,采用中文分词技术,设计并实现了中文搜索引擎,同时应用Java和PHP的Socket网络编程技术,实现了外网通过PHP网页使用Lucene服务的功能。
- 曹书林吕青松王一帆尹乾郑新
- 关键词:中文搜索引擎LUCENESOCKET中文分词PHP