韩晓晖
- 作品数:7 被引量:70H指数:4
- 供职机构:山东大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金山东省科技攻关计划更多>>
- 相关领域:自动化与计算机技术更多>>
- Web社会媒体中信息的质量评价及应用研究
- 社会媒体是一组以Web2.0为意识形态和技术基础构建的网络应用程序,用户可以在其中分享信息、发表观点以及公开交流,并且建立起虚拟的社会关系。主要的社会媒体形式有Web论坛、微博、博客以及社交网络等,这些平台目前已成为非常...
- 韩晓晖
- 关键词:社会媒体主题模型
- 文献传递
- 用户评论中的标签抽取以及排序被引量:11
- 2012年
- 对于一个实体(产品或者商户),往往伴随着成千上万的用户评论。如何从这些冗杂的评论信息中抽取能够描述此实体的精华信息是研究的热点问题。该文提出了一种能够为每个实体抽取特征标签的方法,并且语义去重,保证标签在语义空间内相互独立。首先,对于每个实体的所有评论,进行中文分词、词性标注,并且做依存句法分析。然后,根据每个句子中的依存关系,抽取关键标签,构成此实体的标签库,并且对标签库进行显式语义去重。最后通过K-Means聚类以及Latent Dirichlet Allocation(LDA)主题模型将每个标签映射到语义独立的主题空间,再根据每个标签相对该主题的置信度进行排序。通过以上步骤,可以为每个实体抽取语义独立的关键标签描述,实验中,该文通过对返回标签列表的准确性以及语义多样性进行了统计分析,验证了标签抽取方法的可行性和有效性。
- 李丕绩马军张冬梅韩晓晖
- 关键词:主题模型排序
- 基于网页上下文的Deep Web数据库分类被引量:50
- 2008年
- 讨论了提高Deep Web数据库分类准确性的若干新技术,其中包括利用HTML网页的内容文本作为理解数据库内容的上下文和把数据库表的属性标记词归一的过程.其中对网页中的内容文本的发现算法是基于对网页文本块的多种统计特征.而对数据库属性标记词的归一过程是把同义标记词用代表词进行替代的过程.给出了采用分层模糊集合对给定学习实例所发现的领域和语言知识进行表示和基于这些知识对标记词归一化算法.基于上述预处理,给出了计算Deep Web数据库的K-NN(k nearest neighbors)分类算法,其中对数据库之间语义距离计算综合了数据库表之间和含有数据库表的网页的内容文本之间的语义距离.分类实验给出算法对未预处理的网页和经过预处理后的网页在数据库分类精度、查全率和综合F1等测度上的分类结果比较.
- 马军宋玲韩晓晖闫泼
- 关键词:DEEP数据库分类语义分类
- 一种基于LDA的Web论坛低质量回帖检测方法被引量:4
- 2012年
- 为了过滤Web论坛中的低质量回帖,提出了一种新的基于LDA(latent Dirichlet allocation)的低质量回帖检测方法.不同于以往的方法,该方法在对回帖进行质量分类时使用了两类特征:语义特征和统计特征.提出并定义了垃圾/非重要(J/Ⅰ)主题比例、主题不确定度和主题相关度3种语义特征.为克服TF·IDF方法在表示稀疏文本语义上的局限性,语义特征在LDA主题空间上计算.另外,统计特征包括浅层特征、句法特征和论坛专有特征.由于检测回帖质量可被看作二元分类问题,训练SVM分类器来区分出低质量回帖.在3个不同数据集上的实验结果表明,新方法在精确率、查全率和F1测度上均优于已知的方法.
- 韩晓晖马军邵海敏薛冉
- 关键词:WEB论坛主题模型主题分布语义特征
- 基于衰退理论的Flickr热点事件检测方法
- 2012年
- 该文提出了一种基于衰退理论对Flickr数据进行热点事件检测的方法。该方法首先将从Flickr图像中提取的视觉词汇(Visual Words)与图像的文本信息加权合并成文档。然后训练LDA模型获得文档的主题分布作为其最终向量表示。在此基础上提出了一种改进的Single-Pass算法进行事件检测,该算法不仅考虑了图片的地理位置信息,而且基于衰退理论(Aging Theory)对检测到的事件进行生命周期建模,以便计算事件在每个时间段的能量值。最后,根据能量值进行事件排序,获得给定时间段内的热点事件。在真实Flickr数据集上的实验结果表明所提出的方法在精确率、召回率和F1测度上优于传统事件检测方法。
- 薛冉马军韩晓晖陈竹敏
- 关键词:视觉词汇地理信息LDA
- 面向主题爬取的多粒度URLs优先级计算方法被引量:1
- 2009年
- 垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。
- 陈竹敏马军韩晓晖雷景生
- 关键词:中文信息处理网页分块相关度计算
- 基于三元组深度哈希学习的相似司法案例匹配方法及系统
- 本公开公开了基于三元组深度哈希学习的相似司法案例匹配方法及系统,包括获取待匹配的司法案例文书;将待匹配的司法案例文书,输入到预训练的特征提取模型中,得到待匹配司法案例文书的特征表示向量;将待匹配司法案例文书的特征表示向量...
- 尹义龙聂秀山刘兴波崔超然韩晓晖马玉玲
- 文献传递