国家科技基础条件平台建设计划(2005DKA63901)
- 作品数:4 被引量:27H指数:3
- 相关作者:张辉庞斌谢科赵莉萍周敬民更多>>
- 相关机构:北京航空航天大学更多>>
- 发文基金:国家科技基础条件平台建设计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于关键特征的搜索引擎结果聚类算法被引量:7
- 2007年
- 为了解决用户在搜索引擎结果列表中寻找所需信息困难的问题,帮助用户快速有效地定位有价值的Web文档,与向量空间模型方法不同,采用基于关键特征的聚类算法(KFC).首先从搜索引擎返回结果的关键词里选择重要的词作为关键特征,然后通过分析特征间的关系对特征聚类,最后基于特征聚类结果实现文档的聚类.通过对实验结果的测试表明了算法的有效性.
- 张辉谢科庞斌吴辉
- 关键词:搜索引擎特征提取文档聚类
- 文本分类系统关键技术被引量:9
- 2007年
- 从自然语言的角度考虑词性选择,同时从统计学角度考虑删除文档频率过低的特征词,从而避免产生维数灾难,通过考查类别本身特征和类别之间的关系来提取类别特征向量,采用传统夹角余弦公式考查文本与类别的相似度,实现一种过程简单,易于理解且分类效果不错的文本分类系统。
- 谢科张辉陈鹏庞斌
- 关键词:文本分类向量空间模型
- 基于决策树的查询接口识别技术
- 2008年
- 传统的搜索引擎可以很好地发现静态网页,但是不能获取隐藏在查询接口背后的大量数据。大量不断更新的数据只能通过填写HTML页面的查询接口对后台的数据进行查询得到。本文介绍了一种发现查询接口的有效方法。通过用更具代表性的属性描述查询接口,并利用决策树技术对查询接口进行分类,从而达到比较高的识别准确率。
- 马也张峥张辉
- 关键词:DEEPWEB信息提取决策树
- 基于三维文档向量的自适应话题追踪器模型被引量:11
- 2010年
- 话题追踪(TT)是研究自动追踪事件动态发展过程的一种信息智能获取技术,是话题检测与追踪(TDT)技术的一个子任务,其目标在于自动发现新闻报道信息流中与某一已知话题有关的新报道。该文通过分析传统文档向量空间模型的不足,结合新闻报道的特征,提出了一种三维文档向量模型,在此基础上建立了一种符合新闻报道特征的话题模型。该话题模型在追踪过程中能够根据事件的动态发展进行自我学习和自我修正。结合话题模型,该文还设计了一种自适应的KNN新闻话题追踪器,从而形成了一种完整的中文话题追踪器模型。实验数据表明该方法在描述新闻话题、避免话题漂移方面具有一定优势,在中文话题追踪领域取得了较好效果。
- 张辉周敬民王亮赵莉萍