熊玲
- 作品数:2 被引量:3H指数:1
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金江苏省科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向专题检测的主题与社群联合聚类模型被引量:3
- 2017年
- 专题检测旨在从大规模文本数据中自动聚类同一主题的相关文本,当前研究主要聚焦于层次聚类与密度聚类等聚类算法框架的分析与应用,在专题内容的分析与表示方面缺乏深入探索。通过对专题颗粒度的分析,提出了一种新型主题与社群联合聚类模型。该模型通过主题一致性辨识内容相关的文本,并借助文本中的命名实体社群,进一步细分内容相关的文本聚类,从而避免大规模文本中"事同人不同"的类似专题错误合并。最后,借助该模型在专题检测的层次和粒度上进一步求精,在搜狐人工标记的69项专题万余篇文档上进行专题检测测试。试验结果表明,该模型聚类纯度高于82%,具有实用价值。
- 熊玲周文瑄唐建洪宇
- 关键词:层次聚类
- 基于共指消解的实体搜索模型研究
- 2018年
- 实体属性挖掘(slot filling,SF)旨在从大规模文档集中挖掘给定实体(称作查询)的特定属性信息。实体搜索是SF的重要组成部分,负责检索包含给定查询的文档(称为相关文档),供后续模块从中抽取属性信息。目前,SF领域关于实体搜索的研究较少,使用的基于布尔逻辑的检索模型忽略了实体查询的特点,仅使用查询的词形信息,受限于查询歧义性,检索结果准确率较低。针对这一问题,该文提出一种基于跨文档实体共指消解(cross document coreference resolution,CDCR)的实体搜索模型。该方法通过对召回率较高但准确率较低的候选结果进行CDCR,过滤不包含与给定实体共指实体的文档,提高检索结果的准确率。为了降低过滤造成的召回率损失,该文使用伪相关反馈方法扩充查询实体的描述信息。实验结果显示,相比于基准系统,该方法能有效提升检索结果,准确率和F1分别提升5.63%、2.56%。
- 熊玲徐增壮王潇斌洪宇朱巧明
- 关键词:共指消解