王瑞雪
- 作品数:4 被引量:11H指数:2
- 供职机构:武汉大学信息管理学院更多>>
- 发文基金:国家社会科学基金海南省哲学社会科学规划课题更多>>
- 相关领域:文化科学自动化与计算机技术更多>>
- 基于标签语义距离的图像多样化检索
- 2017年
- 随着互联网图像资源的爆炸式增长,用户对图像多样化检索的需求愈发强烈。本文在对比图像视觉特征和图像文本内容算法的基础上,探讨不同标签语义距离算法在多样化检索中的效果,通过实验提供一种较好的基于标签语义距离的图像多样化检索算法。
- 张震宇丁恒王瑞雪陆伟
- 关键词:社会化标签语义相似度
- 学术查询意图类目体系构建与分析:百度学术查询日志的实证被引量:3
- 2021年
- [目的/意义]了解、分析和识别用户学术搜索时所表达的信息需求是优化查询结果、提高学术搜索引擎用户体验的首要步骤,而用户进行学术搜索时通过查询表达式所表达的用户表意信息需求及潜在信息需求可称之为学术查询意图。本文总结学术查询意图类目体系有助于学术查询意图识别和检索结果页面的呈现。[方法/过程]在A.Broder的查询意图类目体系的基础上,结合百度学术搜索查询日志中查询表达式实例,构建学术查询意图的类目体系。以此为基础,总结不同类别的学术查询意图,并分析不同类别学术查询意图下查询表达式的特点。[结果/结论]学术查询意图主要分为学术文献类、学术实体类、学术探索类、知识问答类和非学术文献类五大类;得出不同类别学术查询意图在学术搜索中的大致比例;给出每类学术查询意图的查询表达式特征、查询情景和查询结果页。
- 王瑞雪方婧李信陆伟张显
- 关键词:学术搜索查询意图类目体系查询日志
- 基于深度学习算法的学术查询意图分类器构建被引量:9
- 2021年
- [目的/意义]实现学术查询意图的自动识别,提高学术搜索引擎的效率。[方法/过程]结合已有查询意图特征和学术搜索特点,从基本信息、特定关键词、实体和出现频率4个层面对查询表达式进行特征构造,运用Naive Bayes、Logistic回归、SVM、Random Forest四种分类算法进行查询意图自动识别的预实验,计算不同方法的准确率、召回率和F值。提出了一种将Logistic回归算法所预测的识别结果扩展到大规模数据集、提取"关键词类"特征的方法构建学术查询意图识别的深度学习两层分类器。[结果/结论]两层分类器的宏平均F1值为0.651,优于其他算法,能够有效平衡不同学术查询意图的类别准确率与召回率效果。两层分类器在学术探索类的效果最好,F1值为0.783。
- 王瑞雪方婧桂思思陆伟张显
- 关键词:自动识别
- 中文社交媒体用户性别预测研究——以新浪微博短文本内容为例
- 2021年
- [目的/意义]与互联网的高速发展不同,个人信息安全保护的发展相对滞后,通过预测社交媒体用户的性别,能够更好地针对不同性别用户提供隐私保护。[方法/过程]以新浪微博这一社交媒体中用户发布的短文本为研究对象,从中抽取语言特征和主题特征,为每一个用户构建基于语言特征、主题特征以及两个特征叠加的特征表达向量,利用SVM机器学习算法构建性别预测的分类器。[结果/结论]实验表明,从微博短文本中抽取的语言特征和主题特征能够准确预测用户性别,其效果在主要评价指标中均有大幅提升。
- 刘雅琦李得志王瑞雪
- 关键词:主题特征语言特征