王宁
- 作品数:19 被引量:157H指数:6
- 供职机构:北京交通大学计算机与信息技术学院更多>>
- 发文基金:国家自然科学基金江苏省自然科学基金中央高校基本科研业务费专项资金更多>>
- 相关领域:自动化与计算机技术医药卫生文化科学更多>>
- 基于X12-LSTM模型的保费收入预测研究被引量:3
- 2020年
- 经济新常态下保费收入预测是学术界和业界共同关注的话题。考虑到保费收入时间序列数据具有强烈的季节性特点,文中构建基于长短期记忆(Long Short-Term Memory,LSTM)神经网络的X12-LSTM模型以预测保费收入,并与简单LSTM模型、SARIMA模型和BP神经网络进行对比。实验结果表明,X12-LSTM模型对保费收入的预测最准确且稳定度最好。相比简单LSTM模型,X12-LSTM模型在准确度方面提升8%,在稳定度方面提升8%,说明X12-LSTM模型是对简单LSTM模型的有效改进,更适用于具有季节性特征的数据预测。
- 刁莉王宁
- 关键词:季节性
- 面向疾病分类的人类互作网络拓扑模块的功能同质性分析被引量:1
- 2016年
- 鉴于网络医学中尚未有对疾病分类与功能蛋白模块功能同质性分析之间关系的研究,展开以下研究工作:首先,利用Mesh、String9等数据库中的数据构建了基因关系网络;其次,采用基于优化模块度的模块划分方法(如BGLL、非负矩阵分解(NMF)等聚类算法)对基因关系网络进行了划分;再次,对划分出来的模块进行了GO富集分析,通过对高致病拓扑模块和低致病拓扑模块的GO富集分析的比较,发现了疾病分类和蛋白模块功能特性在生物过程、细胞组分、分子功能等方面存在重要的生物学提示;最后,分析了疾病分类的拓扑模块的功能特性,通过对网络拓扑性质如平均度、密度、平均最短路径长度等方面的分析得到了各模块的功能特点数据,进一步揭示了疾病分类和功能模块之间的相关关系。
- 高盼盼王宁周雪忠刘光明王惠欣
- 关键词:网络医学疾病分类MESH
- 基于小样本置信区间的众包答案决策方法
- 2020年
- 众包工人的水平良莠不齐,质量控制是众包面临的挑战之一。目前的研究大多通过评估工人质量来保证最终答案的有效性,但是常常忽略众包任务中普遍存在的长尾现象。因此,综合考虑不同任务类型、长尾现象的特点以及工人完成任务的情况,提出构造小样本置信区间来估计工人质量,以解决工人完成任务数量普遍较少情况下的答案决策问题。首先依据黄金标准答案策略对工人质量进行预评估,根据工人质量分布分别对数值型任务和单项选择型任务采用不同的真值初始化方法;然后构造小样本置信区间以准确评估工人质量;最后进行任务答案决策并迭代更新工人质量。为了验证提出方法的有效性,实验在5个真实数据集上进行,与现有方法相比,所提方法能很好地解决长尾现象。特别是在工人完成任务数量普遍较少的情况下,提出的方法在单项选择型任务数据集中的平均准确率高达93%,相比现有方法的最好表现高出16%,且在数值型任务数据集中的MAE值和RMSE值均低于现有方法。
- 张光园王宁
- 关键词:众包
- Web表格的实体列发现算法被引量:1
- 2017年
- 针对机器无法理解Web表格语义信息的问题,传统的实体列发现方法通常依靠表头信息和知识库发现实体列,不适用于没有表头的Web表格。为此,提出一种基于列值间近似依赖关系和规范化的Web表格实体列发现算法,对无表头或者无法恢复出完整表头的表格甚至多实体列表格进行实体列标注。由Web表格中的属性值探测出Web表格属性间内在的近似函数依赖关系,根据Web表格的特点对噪声函数依赖进行删减,通过函数依赖集进行规范化,得到Web表格的实体列。与利用知识库进行实体列探测的算法相比,该算法不依赖表头信息,召回率和精确度均提高了3%~5%,适用性更强。
- 张丽方王宁齐飞
- 关键词:WEB表格
- 方剂间相似性的量化表征方法及模型应用被引量:2
- 2022年
- 方剂数据以每年10亿条的规模增加,针对庞大方剂数据如何提高研究结果的准确度、效度、降低资源消耗,是当前中医药数据挖掘领域关键问题之一。前期研究表明,对方剂数据进行合理的分类、聚类及实体消歧具有重要的应用价值。然而,如何对方剂间的相似性进行量化表征是解决该问题的关键技术。本研究通过对现有方剂相似度的相关研究进行系统复习,梳理出基于字符串、集合、向量距离、概率分布的量化表征方法及应用模型,提出了基于复杂网络和深度学习技术对方剂相似度量化的研究思路,为基于方剂相似度挖掘核心方药、药物配伍、药症关联规律研究提供了方法学参考。
- 李新龙刘岩王宁田贵华商洪才
- 关键词:辨证论治数据挖掘
- 大数据环境下用于实体解析的两层相关性聚类方法被引量:7
- 2014年
- 数据量大、数据更新速度快、数据源多样和数据存在噪声是大数据的四大特点,这为数据集成提出了新的挑战.实体解析是数据集成的一个重要步骤,在大数据环境下,传统的实体解析算法在效率、质量,特别是抗噪声能力方面的表现并不理想.为了解决大数据环境中因为数据噪声所导致的解析结果冲突,将公共邻居引入相关性聚类问题.上层预分块算法基于邻居关系设计,因而能够快速有效地完成初步分块;核概念的引入更精确地定义了节点与类之间的关联程度,以便下层调整算法准确地判断节点的归属,进而提高相关性聚类的准确度.两层算法采用较为粗糙的相似度距离函数,使得算法不仅简单而且高效.同时,由于引入邻居关系,算法的抗噪声能力明显提高.大量实验表明,两层相关性聚类算法无论在解析质量、抗噪声能力还是在扩展性方面均优于传统算法.
- 王宁李杰
- 关键词:数据集成大数据
- 网络表格间的快照关系发现被引量:1
- 2015年
- 近年来,互联网上涌现出大量结构化的表格数据,网络表格的价值不仅在于数据本身,还在于数据之间的关系。只有探测出表格之间潜在的关系,方能更好地利用这些结构化数据。因此提出发现网络表格间的快照关系,并给出发现快照关系的框架以及检测与给定表之间满足某种匹配关系的快照表的算法,快照表可用于优化查询以及在大数据环境下实时地返回部分查询结果。提出了基于实体和属性重合度的评分方法,并引入实体新鲜度的概念,使得算法在快照关系的发现过程中更多地关注能提供新鲜实体的表;与此同时,基于Bayes模型的表格内容增强算法能更加准确地判断属性列上值的一致性,从而提高快照关系发现的准确率。大量实验表明,该评分模型能发现高质量的快照表,且在快照的查询精度和召回率上表现出色。
- 王宁任红伟
- 关键词:快照数据集成查询优化
- 数据管理课程群的构建和实施方案研究被引量:12
- 2010年
- 为了推进《高等学校计算机科学与技术专业发展战略研究报告暨专业规范(试行)》提出的分类培养方案和“高等学校计算机科学与技术专业核心课程教学实施方案”的实施,本文首先给出数据管理课程群的构建方法,在此基础上,针对“数据库系统概论”课程,按照科学型、工程型、应用型三类人才培养的需要,分别给出三种不同的教学实施方案,并比较它们的异同。目的是使该门课的教学能针对不同的目标,实现更有效的教育。
- 王宁王珊
- 关键词:数据库系统计算机科学与技术专业核心课程
- 结构化数据清洗技术综述被引量:72
- 2018年
- 数据清洗是对脏数据进行检测和纠正的过程,是进行数据分析和管理的基础。该文对经典和新兴的数据清洗技术进行分类和总结,为进一步的研究工作提供方向。形式化定义了数据清洗问题,对数据缺失、数据冗余、数据冲突和数据错误这4种数据噪声的检测技术进行详细阐述。按照数据清洗方式对数据噪声的消除技术进行分类概述,包括基于完整性约束的数据清洗算法、基于规则的数据清洗算法、基于统计的数据清洗算法和人机结合的数据清洗算法。介绍了常用的测评数据集和噪声注入工具,并对未来重点的研究方向进行了探讨和展望。
- 郝爽李国良冯建华王宁
- 关键词:数据清洗噪声检测噪声消除
- 利用实体语义信息的关键字查询结果多样化被引量:2
- 2014年
- 近年来,可扩展标记语言(extensible markup language,XML)数据的关键字查询受到广泛关注和研究,查询结果的多样化作为提高用户查找效率的有效途径,也成为一个研究热点。已有的方法采用不同的粒度对查询结果进行多样化,但效果并不理想。为解决这个问题,提出了一种新的方法——从查询结果所描述的中心实体出发对其进行多样化。首先分析实体包含的语义信息,根据实体的特征定义实体语义相似性计算公式,然后通过衡量这些实体之间的语义相似性,对其进行语义划分,并给出查询结果所属中心实体的定位规则。基于以上工作,就可以将查询结果依据其所属中心实体的分组情况进行分类。这样得到的查询结果分组可以让用户根据每组的语义标签进行查询导航,有利于提高查找效率。实验结果证明了该方法的有效性。
- 宋玉玲王宁
- 关键词:关键字查询