宫学庆
- 作品数:35 被引量:333H指数:8
- 供职机构:华东师范大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 数据流处理技术在电信网管系统中的应用被引量:6
- 2008年
- 网络流量监测技术是电信运营商所关注的重点之一。随着网络传输带宽的不断增加,传统的基于磁盘的处理技术已经不能够满足运营管理的需要,数据流处理技术的出现为网络流量监测应用提供了一种新的解决方案。SMART[1,2]和RealMon[3]是将数据流处理技术应用于网络流量监测的两个应用系统。文中结合上海电信在骨干网流量监测上的应用需求,对这两个系统的设计与应用进行了介绍。SMART系统以数据流上的频繁项挖掘算法为基础,支持NetFlow数据流上长时间滑动窗口内的Top-K查询,实现了对网络流量分布的实时监测。RealMon系统采用数据流上的降维分析算法对SNMP数据流进行分析,通过监测网络链路上不同流量数据的相关性变化来发现异常流量。实验和在真实环境中的应用表明,SMART和RealMon系统能够满足骨干网流量监测应用的需要,并且极大地提高了监测系统的性能。
- 宫学庆闫莺常建龙张晨周傲英
- 关键词:数据流网络流量监测TOP-K查询异常检测
- 基于噪声数据流的高效相似匹配算法
- 由于在金融分析、环境监测、网络服务等重要领域的良好应用前景,基于数据流的相似匹配算法成为数据库研究的热点之一.在实际应用中,数据流噪声大量存在且难以被完全过滤,因此,处理噪声数据流上的相似匹配问题显得尤其重要.为解决该问...
- 郑凯宫学庆闫莺周红福周傲英
- 关键词:数据流相似度噪声
- 文献传递
- 一种基于曝光量和点击率的用户组优化策略
- 2013年
- 行为定向技术在网络广告投放过程中起着非常重要的作用,其中最关键的就是对用户进行分组.好的用户分组策略能够产生高质量的用户组,对用户组内的用户投放广告能够有效提高点击量(曝光量×点击率).传统的用户分组策略评估方法重点考虑点击率(click-through rate,CTR)提高程度,忽略了曝光量(impression)的重要性.曝光量受到用户数量的影响,当用户组中的用户数量达不到一定值时,看到广告的用户数量很少,导致曝光量非常少,即使广告的CTR很高,点击量和广告转换量也会非常少,针对这样的用户组投放广告不会为广告主带来特别大的收益.针对曝光量小的用户组,提出一种用户组优化算法,可保证最终分组结果同时具备高的CTR提高程度和曝光量.在真实数据集上进行实验,结果表明经过优化之后的用户组在保证CTR的同时大幅度提高了曝光量和点击量.
- 郭心语何晓丰宫学庆张蓉周傲英
- 关键词:优化算法曝光量点击率点击量
- XML文档的更新
- 1引言近年来,对XML数据库的研究日趋深入。为了让XML成为一种更加完善的数据交换格式,不仅要求它支持查询,也应该支持对XML文档的更新操作。XML文档的更新技术不仅与研究持续查询
- 李岷胥正川宫学庆周傲英
- 关键词:FDXQUERY
- 文献传递
- 逆向序敏感查询在互联网广告投放中的应用被引量:3
- 2013年
- 产品和用户之间的信息匹配,是互联网广告投放中需要解决的关键问题.本文介绍了在信息匹配过程中所用到的几个关键的数据库查询技术,给出了它们的形式化定义和扩展型SQL表述,并且将重点放在了逆向序敏感查询上.同时,还描述了一个具体的例子来对这几种查询方法进行形象化的展示.最后,对这几种查询进行了总结和展望.
- 张召申凯文宫学庆
- 关键词:广告投放
- 一种基于peloton数据库的行级垃圾回收机制
- 本发明公开了一种基于peloton数据库的行级垃圾回收机制。本发明,根据不同的负载场景,选择不同的垃圾回收方法,避免对每个数据行进行可见性检查和无目的的遍历开销,提高垃圾回收的效率。本发明还优化了peloton自身存在的...
- 张诗晨宫学庆
- 在线广告投放系统及技术的演变被引量:4
- 2013年
- 通过对在线广告市场的背景及相关技术的介绍,从广告的形式和投放位置这两个维度对在线广告进行划分,给出了涵盖在线广告领域现有及潜在广告形态的分类体系,分析了不同形态广告投放技术的差异.通过对在线广告投放平台演变和发展的了解,概述了以广告服务器、广告网络、广告交换平台为主的广告投放系统的架构及技术演变,为计算广告相关研究工作提供了关于在线广告投放系统的背景参考和技术概览.
- 宋乐怡宫学庆张蓉刘鹏
- 关键词:在线广告
- Spark查询引擎中Join操作的优化被引量:1
- 2022年
- Spark是基于Map/Reduce计算模型进行大规模数据处理的分布式系统,每个任务都会被分为很多Map处理和Reduce处理在各个节点上并行执行。Shuffle操作是用于连接Map处理和Reduce处理的桥梁。在对两个大表进行Join操作的过程中,如果两表Join列不完全匹配,Spark中现有的Join实现算法会对大量数据进行shuffle操作,严重影响执行效率。提出一种基于Semi Join思想的Join实现算法——Semi Sort Merge Join,通过对左表Join列数据所构建的HashMap对右表数据进行过滤,可以有效减少Shuffle操作过程中所需传输的数据量。算法分析和实验结果表明,对于Join列数据不完全匹配的大表间Join操作,该算法能有效减少Shuffle操作的开销,右表与左表匹配数据量越少,算法优化的效果越明显。
- 赵丽梅黄小菊宫学庆
- 关键词:SPARKJOINSHUFFLE
- 一种基于曝光量和点击率的用户组优化策略
- 定向技术在网络广告投放过程中起着非常重要的作用,其中最关键的就是对用户进行分组.好的用户分组策略能够产生高质量的用户组,对用户组内的用户投放广告能够有效提高点击量(曝光量×点击率).针对曝光量小的用户组,提出一...
- 郭心语何晓丰宫学庆张蓉周傲英
- 关键词:计算机网络用户管理优化算法曝光量点击率
- 分布式环境中数据库模式设计实践被引量:2
- 2014年
- 近年来,数据规模呈爆炸式增长,使得传统集中式数据库难以满足业务需求.而分布式数据库可以将数据存储在多个节点上,具有更好的扩展性,从而可以支撑业务的不断增长.目前,许多企业已经开发出了成功的分布式数据库产品,例如Google Spanner、淘宝的OceanBase等.传统数据库模式设计中,三大范式(1NF、2NF和3NF)及其扩展范式能够减少数据冗余和更新异常,并保证数据的完整性.然而,在分布式架构下,严格遵循范式的模式设计可能带来查询效率较低等问题,而使用反范式模式设计方法通常可以有效提高查询效率.OceanBase是淘宝自主研发的分布式数据库,支持跨行跨表事务,并在OLTP中具有良好的性能,但是对于OLAP业务,其性能并不高.本文将以OceanBase为例,介绍如何利用反范式设计分布式数据库模式,以改善OLAP的查询性能,并通过在OceanBase上部署TPC-H基准评测验证了反范式模式设计的有效性和高效性.
- 庞天泽张晨东高明宫学庆
- 关键词:分布式数据库