湖北省教育厅人文社会科学研究项目(2009b080)
- 作品数:3 被引量:52H指数:3
- 相关作者:叶焕倬吴迪杨青更多>>
- 相关机构:中南财经政法大学更多>>
- 发文基金:湖北省教育厅人文社会科学研究项目国家自然科学基金更多>>
- 相关领域:自动化与计算机技术经济管理更多>>
- 相似重复记录清理方法研究综述被引量:21
- 2010年
- 介绍相似重复数据清理的步骤、框架和衡量标准。重点对检测和清除算法按照算法类型及相关改进思路进行分类综述,给出算法的适用范围和优缺点,概括现有的数据清理工具(如Merge/Purge)。对相似重复记录清理领域的研究问题进行展望,将知识和语义的概念引入到数据清理框架中是未来重要的发展趋势。
- 叶焕倬吴迪
- 关键词:相似重复记录数据清洗
- 持续审计技术发展与现状被引量:25
- 2011年
- 持续审计是现代信息技术与审计相结合的交叉领域,也是当前研究的热点问题。其概念提出已近20年,早期的持续审计技术和模型不能满足现代高度自动化和智能化的审计需求,因此产生了基于智能Agent技术的持续审计系统模型。为了解决数据交换、系统整合和异构平台下持续审计效率较低的问题,XBRL、Web Service、SOA以及其他一些新技术、新模型应运而生。同时,数据挖掘技术的应用缓解了持续审计中信息超载的问题。持续审计是未来审计发展的必然趋势,但目前实施和应用程度参差不齐,总体水平较低,缺乏相应的法律法规,对技术、环境、费用、领导支持、企业能力等方面存在着巨大的挑战。
- 叶焕倬杨青
- 关键词:持续审计信息技术
- 基于改进编辑距离的相似重复记录清理算法被引量:7
- 2011年
- 相似度计算是相似重复记录清理过程中的一个关键问题,编辑距离算法在其中具有广泛应用。在传统编辑距离算法的基础上,通过分析影响相似度计算结果的序列长度、同义词等因素,得到一种同时引入同义词词库和归一化处理思想的改进的基于语义编辑距离的相似重复记录清理算法,适用于相似记录的识别过程。实验分析表明,改进算法计算结果更符合句子的语义信息,绝大部分结果符合人们的认知经验,从而可以有效地提高相似重复记录识别的准确率和精确度。
- 叶焕倬吴迪
- 关键词:相似重复记录语义