您的位置: 专家智库 > >

龚笔宏

作品数:12 被引量:101H指数:4
供职机构:北京大学更多>>
发文基金:国家自然科学基金国家重点基础研究发展计划国家教育部博士点基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 7篇期刊文章
  • 2篇会议论文
  • 2篇专利
  • 1篇学位论文

领域

  • 10篇自动化与计算...

主题

  • 6篇引擎
  • 6篇搜索
  • 6篇搜索引擎
  • 6篇索引
  • 6篇中文
  • 4篇用户
  • 3篇信息检索
  • 3篇用户反馈
  • 3篇评测
  • 2篇日志
  • 2篇数据挖掘
  • 2篇搜索引擎日志
  • 2篇评测方法
  • 2篇中文网页
  • 2篇中文网页分类
  • 2篇中文新词
  • 2篇网页
  • 2篇网页分类
  • 2篇文本分类
  • 2篇新词

机构

  • 12篇北京大学
  • 1篇解放军电子工...

作者

  • 12篇龚笔宏
  • 5篇冯是聪
  • 2篇张志刚
  • 2篇单松巍
  • 2篇李晓明
  • 1篇陆余良
  • 1篇孟涛
  • 1篇王继民
  • 1篇彭波
  • 1篇孙宏纲
  • 1篇刘金红

传媒

  • 1篇计算机研究与...
  • 1篇模式识别与人...
  • 1篇清华大学学报...
  • 1篇计算机工程
  • 1篇广西师范大学...
  • 1篇中文信息学报
  • 1篇计算机工程与...
  • 1篇第三届全国搜...
  • 1篇全国搜索引擎...

年份

  • 2篇2008
  • 3篇2007
  • 1篇2006
  • 3篇2005
  • 2篇2004
  • 1篇2003
12 条 记 录,以下是 1-10
排序方式:
处理中文新词的方法与装置
本发明公开了学习中文新词的方法与装置。对通过输入模块输入的搜索引擎日志用分词处理模块进行处理,将单个汉字及含有非汉语成分的查询词删除,并将剩余的查询词按查询次数排序,设置阙值,将查询次数低于阙值的查询词删除;对于余下的查...
龚笔宏冯是聪
文献传递
“天网”目录导航服务研究被引量:19
2004年
为了提高搜索引擎的查准率 ,帮助用户快速地定位其感兴趣的网页 ,研究了如何在Spider式搜索引擎“天网”系统中提供目录导航服务 基本思想就是利用有指导的机器学习方法实现中文网页的自动分类 主要贡献有两点 :①搜集并建立了一个面向中文网页并且支持层次模型的大规模中文网页数据集 ,这是实现中文网页自动分类的前提和基础 ;②针对中文网页信息的自身特性以及CHI方法的固有缺陷 ,提出一种自动清除“噪音”的特征选取算法 ,并实现了一个能够处理海量中文网页的分类器 实验结果表明该分类器有较高的分类质量 。
冯是聪单松巍龚笔宏张志刚李晓明
关键词:搜索引擎WEB挖掘中文网页分类
一种新的分类评测方法被引量:1
2007年
分类算法的现有评价指标存在一些问题,主要是评测数值在不同的数据集上呈现剧烈波动。为解决这一问题,通过考察数据集对分类结果的影响,提出了一种对分类算法的新评测指标new-macro-F1。这一新评测指标将数据集的因素从评测过程中独立了出来,使得new-macro-F1表示的仅仅是分类算法本身。实验结果表明使用新评测指标,同一分类器在不同数据集上的表现波动较小;通过分类器在一个数据集上的表现,可以近似的估计该分类器在另一数据集上的分类质量。
龚笔宏
关键词:评测方法数据挖掘
基于Web挖掘的个性化技术研究被引量:61
2004年
针对用户特性向用户提供个性化服务已经成为Web技术的研究热点。Web挖掘是实现Web个性化服务的关键技术之一。研究了Web挖掘技术,阐述了Web挖掘技术存在的不足,并对应用Web挖掘技术实现个性化服务的发展前景进行了分析。
冯是聪单松巍张志刚龚笔宏李晓明
关键词:WEB挖掘个性化服务用户建模代理人工智能
对文本分类评测方法稳定性的研究被引量:2
2008年
文本分类算法一般采用宏平均精度、宏平均召回率以及宏平均F_1值作为评价指标,然而同一个分类器在不同数据集上所得的评测数值往往存在很大差异,使得评测数值只在特定的数据集上有价值,而在其他数据集上没有意义.为了解决这个问题.本文提出3个因素来刻画数据集对分类结果的影响,并利用这3个因素构造一种评测指标,newmacro-F_1.这一评测指标将数据集的因素从评测过程中独立出来,使得,newmacro-F_1表示的仅仅是分类算法本身.实验结果表明使用该评测指标同一分类器在不同的数据集上波动较小.通过分类器在1个数据集上的表现,可以近似计算得到该分类器在另一个数据集上的分类质量.
龚笔宏彭波
关键词:评测方法数据挖掘
基于用户反馈的个性化检索技术研究
随着互联网的飞速发展,搜索引擎日渐成为人们必不可少的一项工具。然而一方面由于搜索引擎的用户大多是普通用户,很难将自己复杂的检索目的组织成搜索引擎所需要的简单的查询词表示;因此为用户提供更多的交互式接口,提供启发式检索手段...
龚笔宏
关键词:搜索引擎信息检索个性化检索用户反馈
SCC--利用分类技术改进的短摘要比较方法
搜索引擎返回结果的摘要的特点在于文档长度短,大部分关键字最多只出现一次,因此传统文档比较方法所使用的TF-IDF、夹角余弦等方法对摘要比较失去了作用。为了改进传统文档比较方法,该文利用分类技术对短摘要信息进行扩充,以改进...
龚笔宏
关键词:信息检索用户反馈搜索引擎
文献传递
基于HowNet的VSM模型扩展在文本分类中的应用研究被引量:10
2007年
在采用VSM模型进行文本分类时,如果特征向量维数相差悬殊,会给分类结果产生很大负面影响。为了解决这一问题,本文引入了特征向量扩展的思想,同时定义了有效原始信息浓度的概念。特征向量扩展以HowNet语义词典为依据,对高维和低维特征向量采用不同的扩展策略,从而减小了不同类别语料间有效原始信息浓度的差值,进而改善复杂语料的分类结果。实验表明该方法在复杂语料情况下,通过对特征向量进行HowNet语义扩展,可以较好的改善分类结果。
孙宏纲陆余良刘金红龚笔宏
关键词:计算机应用中文信息处理HOWNETVSM模型文本分类
kNN与NB算法在中文网页分类上的比较研究
针对中文网页,比较研究了kNN和NB分类算法.主要的实验结果有:(1)kNN的分类质量明显优于NB;(2)即使是同一个算法对于不同领域的文档,其分类能力也是各有差异的.从总体而言,NB算法对不同类别比较敏感,是一种不稳定...
龚笔宏冯是聪
关键词:中文网页分类KNNNB评测数据集
文献传递
SCC——利用分类技术改进的短摘要比较方法被引量:1
2005年
搜索引擎返回结果的摘要的特点在于文档长度短,大部分关键字最多只出现一次,因此传统文档比较方法所使用的TF-IDF、夹角余弦等方法对摘要比较失去了作用。为了改进传统文档比较方法,该文利用分类技术对短摘要信息进行扩充,以改进摘要比较。将两个摘要分别与参照物进行比较,在较大的一个文档集合中找到与摘要相近的文档集合。用这些文档集合扩充短摘要的含义,以替代短摘要来衡量摘要相似度。实验结果表明,使用改进后的摘要比较算法,相关集合的DCG指标有了明显改进。
龚笔宏
关键词:信息检索用户反馈
共2页<12>
聚类工具0