曹庆皇
- 作品数:3 被引量:9H指数:2
- 供职机构:江苏大学计算机科学与通信工程学院更多>>
- 发文基金:国家自然科学基金博士研究生创新基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于关联挖掘和语义聚类的Deep Web复杂匹配方法被引量:2
- 2009年
- 为了提高DeepW eb查询接口匹配的效率和准确率,在现有双重相关性挖掘方法(DCM)的基础上提出了一种用关联挖掘和语义聚类来匹配的方法。在关联挖掘成组属性时,引入一种基于互信息的属性相关度标准,并采用矩阵来实现以解决效率不高问题;在生成同义属性时,提出利用语义网来计算语义相似度,并对属性进行聚类,以生成同义属性。通过在四个领域200多个查询接口上实验,说明改进的方法在效率和准确率方面都比DCM方法有很大提高。
- 曹庆皇鞠时光杨晓琴
- 关键词:DEEPWEB语义聚类语义网
- 面向Deep Web数据自动抽取的模板生成方法被引量:3
- 2010年
- DeepWeb结果页面大多由网站根据请求从后台数据库读取数据并动态填充到通用模板而生成的。研究如何从一系列同模板生成的页面中生成该模板,并利用模板自动抽取数据。给出了模板生成问题的形式化描述,提出了一种新颖的模板生成方法,利用生成的模板从实例网页中抽取数据。与现有方法相比,该方法适用于列表页面和详细页面两种类型网页。通过在多个领域站点上实验,说明新方法在不降低准确率的情况下能大大提高召回率。
- 杨晓琴鞠时光曹庆皇王秀红
- 关键词:DEEPWEB数据抽取文法推断
- 基于包装器的Deep Web自动语义标注被引量:4
- 2010年
- 为最准最全地对页面抽取的数据进行语义标注,提出一种基于包装器自动语义标注的方法。该方法利用多个标注源进行组合标注,有效解决单标注源标注率不高问题,同时针对标注不完全问题,给出利用多个数据源的互补关系来标注,生成高效率的标注包装器对抽取结果自动标注。实验结果证明,该方法具有较高的准确性和效率。
- 杨晓琴鞠时光曹庆皇王秀红
- 关键词:深层网络语义标注包装器