杨志峰
- 作品数:11 被引量:189H指数:4
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 一种稳定的文本检索算法
- 2004年
- 目前信息检索方法的主流是统计方法。统计方法常常依赖于特定参数以适应不同的数据集合和检索任务,因此应用较为困难。本文试图寻找一种较为稳定的文本检索算法以减少检索方法中的不确定性。在TREC2002的检索评测中,本文的方法取得了良好的性能表现。通过遗传算法对这种方法的稳定性和参数配置进行了验证,为自动参数优化的进一步研究奠定了基础。
- 杨志峰
- 关键词:文本检索稳定性遗传算法
- 网络日志规模分析和用户兴趣挖掘被引量:78
- 2005年
- 文章围绕网络日志中是否蕴含用户访问Web的规律性特性以及如何利用这些特性,研究了日志规模与用户数、Web文档数以及单位用户访问的Web文档数的关系;通过用户对Web访问动机的分析得出结论:一定时间段的Web访问日志中蕴含了用户的稳定兴趣;利用日志中蕴含的用户稳定兴趣,提出了一个基于用户行为的相关文档检索模型和搜索引擎系统SISI.SISI的实际检索性能与分析检索模型所得结论一致:检索准确率和检索时间主要依赖于用户数,检索返回的记录数主要依赖于文档数.
- 郭岩白硕杨志峰张凯
- 关键词:WEB日志挖掘用户行为
- TREC2002中的WEB信息检索被引量:2
- 2003年
- 文本检索会议(TextREtrievalConference,TREC)是目前国际上信息检索领域最重要的学术交流与系统评测活动。会议为参加者提供标准的数据集合、评测问题和标准答案,从而使参加者以共同的标准进行系统运行和评测。作者代表中国科学院参加了文本检索会议的WEB信息检索任务。在TREC2002中,作者发现了适合不同数据集合的较高性能的内容检索算法,并综合考虑了文本内容、链接文字、文档结构等因素对WEB信息检索效果的影响,取得了较好的成绩。该方法在两届会议的不同任务中均表现了较高的性能。
- 杨志峰刘悦杨哲王斌程学旗
- 关键词:信息检索WEBTRACK评测
- 信息检索相关性理论的语义基础分析
- 2004年
- 目前信息检索系统的评估方式主要是黑箱方法,无法了解系统内部情况。逻辑方法为比较不同类型的信息检索系统的内部功能提供了途径。为此一些基本的定义和假设已经被建立,并被初步应用于理论研究,但目前的逻辑框架尚未完善。本文通过分析逻辑框架的语义基础,重新定义了基本语义概念,为逻辑框架提供了语义支持,使逻辑结果更逼近实际语义。
- 杨志峰王斌李素建
- 关键词:信息检索系统信息载体代数逻辑
- 信息检索相关性逻辑的语义分析
- 目前信息检索系统的评估方式主要是黑箱方法,无法了解系统内部情况.逻辑方法为比较不同类型的信息检索系统的内部功能提供了途径.为此一些基本的定义和假设已经被建立,并被初步应用于理论研究,但目前的逻辑框架尚未完善.本文通过分析...
- 杨志峰王斌李素建
- 关键词:信息检索性能评测语义逻辑
- 文献传递
- 基于最大熵模型的组块分析被引量:93
- 2003年
- 采用最大熵模型实现中文组块分析的任务 .首先明确了中文组块的定义 ,并且列出了模型中所有的组块类型和组块标注符号 .组块划分和识别的过程可以转化为对于每一个词语赋予一个组块标注符号的过程 ,我们可以把它作为一个分类问题根据最大熵模型来解决 .最大熵模型的关键是如何选取有效的特征 ,文中给出了相关的特征选择过程和算法 .最后给出了系统实现和实验结果 .
- 李素建刘群杨志峰
- 关键词:自然语言处理最大熵模型组块分析句法分析信息处理
- 利用链接分析技术提高搜索引擎查找质量的研究被引量:13
- 2002年
- 文章对链接分析技术在搜索引擎的页面排名中的应用进行了深入细致的研究,对google的利用链接分析的页面排名算法PageRank算法进行了改进,并将其应用到我们自己的搜索引擎中,给出了它在提高查找质量的页面排名中的具体应用策略。
- 刘悦杨志峰程学旗王斌
- 关键词:搜索引擎PAGERANK算法WWW信息检索
- 基于分类的搜索引擎结构
- 九十年代以来,WEB以惊人的速度发展起来,大量的信息使得搜索引擎成为重要的网络应用.但是,传统的搜索引擎检索效果不尽如人意,有关的问题成为研究的热点.作者通过对现有信息技术的分析和改进,提出了一个新的搜索引擎结构,它使用...
- 杨志峰白硕
- 关键词:搜索引擎信息检索
- 文献传递
- 稳定的信息检索方法及其在分布式环境下的应用
- 该文在TREC检索任务及其相关性判定的基础上,探讨了利用遗传算法改善检索质量和进行参数优化的可能性.在有相关性判定的遗传算法中,通过谨慎地选择遗传算子和遗传算法的形式以提高算法的全局和局部搜索能力,并避免早熟现象,取得了...
- 杨志峰
- 关键词:信息检索文本检索向量空间模型P2P
- 文献传递
- 基于最大熵模型的组块分析.
- 本文采用最大熵模型实现中文组块分析的任务.首先我们明确了中文组块的定义,并且列出了模型中所有的组块类型和组块标注符号.组块划分和识别的过程可以转化为对于每一个词语赋予一个组块符号标注的过程,我们可以它作为一个分类问题根据...
- 李素建刘群杨志峰
- 关键词:组块分析语法分析最大熵原理浅层分析
- 文献传递