刘菁菁
- 作品数:9 被引量:30H指数:3
- 供职机构:大连理工大学电子科学与技术学院计算机科学与工程系更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于支持向量机的人物属性抽取被引量:13
- 2007年
- 研究了如何使用机器学习方法和语义资源实现有效的人物属性抽取.人物属性抽取是指从自由文本中提取出人的属性信息,如性别、职务信息等.如果把描述人属性的词也看做是实体,则可以把人物属性抽取看作是实体关系抽取的具体应用.使用<知网>提取描述人属性的词作为触发词,这样就可以把触发词和人名间的描述关系转化为一分类问题.当选取触发词和人名左、中、右的3个词的词义和词性作为特征,使用支持向量机进行判别时达到最好抽取效果.
- 叶正林鸿飞苏绥刘菁菁
- 关键词:属性抽取支持向量机
- 基于支持向量机的人物属性抽取
- 研究了如何使用机器学习方法和语义资源实现有效的人物属性抽取.人物属性抽取是指从自由文本中提取出人的属性信息,如性别、职务信息等.如果把描述人属性的词也看做是实体,则可以把人物属性抽取看作是实体关系抽取的具体应用.使用<知...
- 叶正林鸿飞苏绥刘菁菁
- 关键词:支持向量机
- 文献传递
- 基于结构和链接扩展的中文网页分类研究被引量:5
- 2007年
- 在研究Web结构特征的基础上,综合网页的结构和内容,抽取网页不同区域的内容信息,并赋予不同权重来表明其重要程度的不同。按网页间相互链接关系,扩展链接,将链接源网页所含有的类别信息传播给目标网页,从而提高分类效果。实验证明,该方法比单独依赖网页内容信息的分类在效果上有所提高。
- 刘菁菁林鸿飞
- 关键词:HTML标签网络结构
- 基于PageRank和锚文本的网页排序研究
- 传统链接分析主要利用基于随机冲浪模型的PageRank技术,将网页入度作为评估网页重要性的一个指标.本文在利用传统链接分析成果的基础上,首先获得网页的PageRank值,对其进行初步排序,再利用锚文本和查询词的相似度进行...
- 刘菁菁林鸿飞杨志豪
- 关键词:链接分析锚文本PAGERANK网页排序
- 文献传递
- 基于结构和主题的Web信息检索研究
- 随着Internet技术的突飞猛进,Web信息量爆炸性增长,人们越来越习惯使用搜索引擎查找所关心的信息了。但浩瀚的信息资源却给搜索引擎的发展提出了新的挑战。如何有效、快捷、准确地将查询结果返回给用户,提高Web信息检索效...
- 刘菁菁
- 关键词:搜索引擎链接分析锚文本网页分类XML检索
- 文献传递
- 基于锚文本相似度的链接算法被引量:2
- 2007年
- 对链接算法在搜索引擎检索结果排序中的应用进行研究,提出基于Page Rank和锚文本对检索结果进行二次排序,合理评价网页重要程度.实验结果表明,该方法在一定程度上能提高检索效果.
- 刘菁菁董静林鸿飞叶正
- 关键词:链接分析PAGERANK锚文本相似度
- 基于结构和链接扩展的中文网页分类研究
- 在研究Web结构特征的基础上,综合网页的结构和内容,抽取网页不同区域的内容信息,并赋予不同权重来表明其重要程度的不同。按网页间相互链接关系,扩展链接,将链接源网页所含有的类别信息传播给目标网页,从而提高分类效果。实验证明...
- 刘菁菁林鸿飞
- 关键词:HTML标签网络结构
- 文献传递
- 基于PageRank和锚文本的网页排序研究
- 传统链接分析主要利用基于随机冲浪模型的PageRank技术,将网页入度作为评估网页重要性的一个指标。本文在利用传统链接分析成果的基础上,首先获得网页的PageRank值,对其进行初步排序,再利用锚文本和查询词的相似度进行...
- 刘菁菁林鸿飞杨志豪
- 关键词:链接分析锚文本PAGERANK网页排序
- 文献传递
- 基于PageRank和锚文本的网页排序研究被引量:9
- 2007年
- 网页和纯文本结构差异性决定了传统的IR排序技术不能适应网络发展。为合理排序检索结果,引入了基于文献引文分析法原理的链接分析方法。该方法对被多个网页链接的网页赋予较高评价,同时考虑锚文本与查询词的相似度。源网页质量参差不齐,链向相同网页的锚文本质量也有优劣之分,但高质量源网页的锚文本不一定比质量低源网页的准确。对相似度高的锚文本加以修正,即通过计算查询词和锚文本相似度,对于相似度较高但源于PageRank值低的源网页的锚文本加以补偿,并重新排序查询结果。
- 刘菁菁林鸿飞赵晶
- 关键词:链接分析锚文本PAGERANK网页排序