国家教育部博士点基金(20090002120005)
- 作品数:22 被引量:170H指数:8
- 相关作者:马少平刘奕群张敏茹立云岑荣伟更多>>
- 相关机构:清华大学清华信息科学与技术国家实验室香港城市大学更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于浏览器收藏夹的用户行为研究被引量:1
- 2011年
- 网络用户可以使用浏览器收藏夹收藏网页并快速访问其中内容。基于收藏夹的用户行为研究将对用户个性化、网页质量评估、大规模网页目录构建等方面的工作具有指导意义。该文使用近27万个用户的收藏夹数据,从组织结构、收藏内容和用户兴趣三个方面对用户收藏行为进行了研究。首先,我们提出收藏夹浏览点击模型,分析了收藏夹结构特征和使用效率;其次,通过与PageRank值比较,我们发现用户倾向于收藏质量高的网络资源;最后,我们结合ODP分析了收藏夹用户的兴趣分布特点。
- 方奇刘奕群张敏茹立云马少平
- 关键词:用户行为分析
- 面向浏览推荐的网页关键词提取被引量:4
- 2012年
- 在网页浏览推荐任务中,如何利用网页内容选取合适的推荐关键词是具有挑战性的研究热点.为了实现有效的关键词推荐方法,利用大规模的真实网络用户浏览行为数据,以及相关提取算法和新词发现算法实现并比较了基于领域关键词提取技术和基于查询词候选集合的关键词推荐方法.实验结果证明,2种方法都能够有效地表征用户信息需求,而第1种推荐方法的准确率更高,具有更好的推荐性能.
- 闫兴龙刘奕群马少平张敏茹立云
- 关键词:关键词提取网页关键词
- 基于用户行为的长查询用户满意度分析被引量:5
- 2012年
- 搜索引擎性能评估是信息检索界一个重要课题.长查询具有较为丰富的信息内容,能更加准确地描述用户的信息需求.在此基础上文中提出长查询用户满意度分析的整体框架,定义用户满意度的概念,并在用户日志中提取相关用户行为特征,应用决策树和SVM两种分类算法评测用户满意度.在大规模商业搜索引擎日志上完成的实验结果证明了这套评价体系的有效性.结果表明,用户对于查询满意和不满意的分类准确率分别达到86%和70%.
- 朱彤刘奕群茹立云马少平
- 关键词:用户行为分析用户满意度学习算法
- 低频查询的用户行为分析和类别研究被引量:8
- 2012年
- 低频查询是用户提交查询频次非常低的查询.它们占了搜索引擎独立查询的很大比例且对用户体验影响巨大,但由于数据稀疏性,现有的搜索引擎用户行为分析及相关研究中对低频查询涉及很少.结合前人的相关工作,使用商业搜索引擎的大规模用户日志,在会话级别上进行低频查询的用户行为分析以及类别研究.基于目标查询行为、后续相关查询行为、整体会话行为3个方面的12个特征进行了低频查询的用户行为特征分析,首次提出了低频查询类别分析框架,并进一步使用改进的AdaBoost算法对低频查询会话进行分类.实验对2000个随机的低频查询会话样例进行分类,AUC值达到了83%以上.低频查询的用户行为分析和类别研究,将为搜索引擎用户行为分析等网络检索研究提供重要基础.
- 姚婷张敏刘奕群马少平茹立云
- 关键词:用户行为日志分析
- 锚文本检索有效性分析被引量:3
- 2011年
- 锚文本对网络信息检索性能的提升作用已经得到验证,并被广泛地应用于商用网络搜索引擎.然而,锚文本制作的不可控性导致其中蕴含大量与目标网页不相关或具有作弊倾向的无用信息.另外,对于需要衡量检索结果服务质量的事务类查询,原始锚文本推荐的目标网页也往往与真实的用户体验不一致.为了解决上述问题,基于大规模真实用户的互联网浏览行为日志展开研究.首先提出了锚文本检索有效性的评估框架,然后分析了用户网络浏览点击行为与锚文本检索有效性之间的联系,挖掘了用户网络浏览点击行为中有助于筛选高质量锚文本的特征.基于这些特征,提出了两种超链接文档生成方法.实验结果表明,基于用户网络浏览点击行为特征筛选出的锚文本,与原始锚文本相比,能够明显地提升网络检索的性能.
- 周博刘奕群张敏金奕江马少平
- 关键词:锚文本网络信息检索
- 基于用户行为的竞价广告效果分析被引量:11
- 2011年
- 随着互联网数据的爆炸性增长,搜索引擎成为人们生活和工作中不可缺少的信息获取工具.作为搜索引擎盈利的主要商业模式之一,竞价排名的赞助商广告链接以其高效、低风险、灵活方便的特点受到传统营销方式下处于劣势的中小企业的青睐.然而搜索引擎结果页面上出现大量的广告链接是否影响用户体验?这些广告链接的实际收效如何?加入赞助商广告链接的搜索引擎如何影响用户的点击行为?开展面向这些问题的研究将对研究用户使用搜索引擎的行为特点、改进搜索引擎改进竞价排名的开展方式和指导中小企业如何更加有效地购买广告链接具有非常重要的指导意义.在总结国内外已经开展的相关研究的基础上,利用某商业搜索引擎提供的互联网用户点击日志和搜索引擎使用日志,采用数据挖掘和信息统计的方法,试图在全互联网的规模和商业搜索引擎的级别上提取用户和广告链接点击相关的信息,加以分析讨论,并对广告链接和非广告链接的相关性作深入分析.
- 王家卓刘奕群马少平张敏
- 关键词:竞价排名搜索引擎互联网广告
- 基于群体智慧的Web访问日志会话主题识别研究被引量:5
- 2011年
- Web访问日志中的会话(session)是指特定用户在一定时间范围内的访问行为的连续序列。会话主题(topic)是指会话中具有相同用户意图的部分。从会话中进一步识别出能体现用户意图的处理单元(topic)是进行用户访问行为分析的重要基础。目前相关工作主要集中在边界识别上,无法处理用户意图交叉情况。为了解决该问题,该文重新形式化定义了session和topic的相关概念,提出最大划分的求解任务,并设计出了基于用户群体智慧的会话主题识别算法。在使用大规模真实Web访问日志的实验中,我们的算法取得了不错的效果。
- 方奇刘奕群张敏茹立云马少平
- 关键词:WEB访问日志
- 一种基于文档相似度的检索结果重排序方法被引量:9
- 2010年
- 对相关反馈问题的研究已有近30年的历史,相关反馈也被证明可以大程度稳定地提升检索系统的性能。当前网络环境下相关反馈的应用以及用户提供反馈信息的方式已经发生了明显的变化,因此相关反馈研究又一次引起了研究界的注意。该文提出了一种基于文档相似度的搜索结果重排序方法,该方法同时利用了反馈信息中的相关文档与不相关文档。在大规模网络信息检索标准实验数据上的实验结果表明:该方法不仅可以稳定地提高系统的检索性能,并且相较于经典的查询扩展方法有着明显的优势。
- 周博岑荣伟刘奕群张敏金奕江马少平
- 关键词:计算机应用中文信息处理信息检索
- 面向用户互联网访问日志的异常点击分析被引量:5
- 2010年
- 随着互联网用户人数的日益增长,用户行为分析已经成为互联网技术领域重要的研究方法之一。在日志中去除异常点击,对于准确挖掘用户行为的意图和习惯十分重要。该文采用某公司提供的真实用户互联网访问日志,对日志中的连续点击,单IP多用户以及单用户多IP等可能的异常点击,从访问集中度,用户平均访问量等方面进行了分析。我们认为对于连续点击,用户行为分析研究人员可以分情况滤去多余点击或该用户所有点击,而对于单IP多用户和单用户多IP的点击,我们建议不做处理。
- 王倩刘奕群马少平茹立云
- 关键词:计算机应用中文信息处理用户行为分析
- 基于日志挖掘的搜索引擎用户行为分析被引量:34
- 2010年
- 随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。该文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。
- 岑荣伟刘奕群张敏茹立云马少平
- 关键词:计算机应用中文信息处理用户行为分析搜索引擎网络信息检索