王洪亚
- 作品数:26 被引量:34H指数:4
- 供职机构:东华大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金上海市自然科学基金上海市科委科技攻关项目更多>>
- 相关领域:自动化与计算机技术电子电信文化科学更多>>
- Top-k相似连接算法性能优化被引量:4
- 2016年
- 相似连接算法在数据清理、数据集成和重复网页检测等领域有着广泛的应用.现有相似连接算法有两种类型:基于相似度阈值的相似连接和Top-k相似连接.Top-k连接算法非常适合于相似度阈值未知的应用场景,目前最为有效的Top-k相似连接算法是Xiao等人提出的Topk-join.为了解决Topk-join中存在的性能问题,提出了一种Top-k相似连接算法Opt-join,该算法将Token批处理技术集成在现有的事件驱动框架中,以降低前缀事件的处理代价;通过置换哈希查找与过滤操作的执行位置来降低哈希查找代价,并理论证明了该置换的正确性.实验结果表明:与Topk-join算法相比,Opt-join取得了1.28倍~3.09倍的性能提升.实验数据还显示:随着数据长度的增加或k值的增长,Opt-join的性能优势有不断增加的趋势.
- 王洪亚杨利宏刘晓强
- On-Demand数据广播环境下实时有序查询处理
- 2010年
- 在On-Demand数据广播环境下,广播服务器基于用户发送的数据请求等信息进行调度决策来满足用户的数据访问需求。在很多实际应用中,用户的数据请求需要在一定时间段内得到满足,即数据请求是有截止期的。现有研究只考虑了具有截止期约束的单个数据请求的调度问题,而实时查询处理即用户以查询为单位依次发送多个数据请求的研究尚未得到足够的关注。本文重点研究了On-Demand数据广播环境下如何有效地处理实时有序查询这一问题。基于对该问题的分析,定义了一类新的调度问题ROBS并证明了ROBS的Off-Line版本是NP-Hard的;提出了一种新的考虑查询语义的On-Line调度算法OL-ROBS,该算法通过综合考虑数据请求个数、查询截止期和查询剩余数据请求个数来确定待广播数据项的优先级;为提高OL-ROBS的执行效率,设计了一种裁减算法,用以减少调度决策的搜索空间。模拟实验将OL-ROBS与目前最为有效的实时数据请求调度算法Sinθ-进行了比较,结果显示OL-ROBS具有更低的错过截止期比率。
- 王洪亚刘晓强何浩源宋晖肖迎元乐嘉锦
- 关键词:数据广播调度算法
- 大学计算机基础类数据科学课程的探索与实践被引量:4
- 2019年
- 针对大学本科生具备的知识背景,抽取数据科学工作的思想和方法,结合大数据、人工智能应用等前沿技术,提出计算机基础教学体系中数据科学课程的知识结构框架,探讨适应性的教学内容、教学方法和实验体系,最后说明教学实践效果.
- 宋晖刘晓强杜明王洪亚
- 关键词:计算机基础教学教学内容人工智能
- 一种支持多核平台下数据流处理的线程管理系统
- 本发明涉及一种支持多核平台下数据流处理的线程管理系统,其特征在于,包括线程池管理器、请求队列、事件队列及包含有多个线程的线程池。本发明的有益效果是:本发明解决了多核平台复杂查询中数据流处理的性能问题。本发明能够在不改变原...
- 王洪亚刘杰陆可镜常姗
- 数据广播环境下实时查询处理被引量:1
- 2008年
- 现有的实时数据广播研究中,只考虑了具有截止期约束的单个数据请求的调度问题,而支持实时查询处理的数据广播技术尚未得到足够的关注。该文研究在on-demand数据广播环境下,如何有效地处理实时查询问题,提出一种新的数据调度算法(QSA)。通过仿真实验与目前最为有效的数据请求调度算法SIN进行了比较,结果显示QSA具有更低的错过截止期比率,在最好的情况下,QSA比SIN降低了17.45%。
- 何浩源王洪亚刘晓强丛静乐嘉锦
- 关键词:数据广播调度算法
- 一种基于确定度的交互式迭代数据清洗方法
- 2023年
- 自动化的数据清洗技术可以极大地提升数据清洗的效率,但会导致一定的错误率和不可靠的结果,通过引入人的参与,对建议修改值进行检查可避免错误的修改,同时对最终结果的可靠性有直观的评估。基于上述考虑,本文提出了一种基于确定度的交互式迭代清洗方法,该方法利用主动学习技术,将基于统计方法的数据清洗技术和人的参与相结合,在迭代过程中不断提升清洗模型的清洗能力和数据质量,同时最小化人的参与度。具体地,此方法包含一个基于确定度的自动清洗模型,对数据是否需要修改的必要性进行度量,可有效减少错误的修复;此外,本文还定义了确定度增益,表示数据是保留、还是修改的分歧程度,将分歧最大的建议修改值交与人查看,以减小人的参与度。最终,本文在多个实验数据上验证了方法的有效性。
- 孙辞海王洪亚郭开彦程炜东
- 关键词:数据清洗
- 多核平台下Esper数据流管理系统性能分析研究被引量:2
- 2016年
- Esper事件处理系统可用于复杂事件处理与数据分析,适用于处理大量历史的或实时的消息和事件流。分析多核计算平台下基于Esper引擎所构建的数据流处理系统,介绍基于Esper引擎实验平台的设计与实现,给出完整的查询语句和测试用例,并使用该实验平台对多核平台下Esper引擎的性能进行测试,通过实时监控和离线数据分析给出系统的各项性能指标。实验结果表明,Esper数据流系统对多核平台并不能够提供良好的支持。
- 王洪亚张华庆刘晓强
- 关键词:复杂事件处理多核平台数据流管理系统
- Conger数据流管理系统:当CQL遇见奥罗拉
- 随着新型网络应用的不断出现,流形态数据已经成为数据管理领域研究的新热点.与传统数据相比,数据流具有时变、高到达速率和大数据量等特点.在CPU和存储资源有限的约束条件下,需要对数据流管理系统的体系结构进行全新的设计和实现....
- 金杰王洪亚曹娇王梅
- 关键词:数据流数据流管理系统
- 文献传递
- 异构分层无线网络中基于逗留时间的动态流量均衡算法研究被引量:7
- 2006年
- 为使异构分层无线网络能服务更多的移动用户,提出了一种基于逗留时间的动态流量均衡算法。该算法首先根据用户移动模型计算其在小区内的逗留时间,然后基于小区呼叫到达率和重叠覆盖小区的流量状态来确定一个周期内呼叫转移的数量,最后依据逗留时间门限值将重负载小区中满足条件的呼叫转移到轻负载的重叠覆盖小区中。为降低切换呼叫掉线率,还对异构网间的呼叫切换策略做了改进。仿真实验结果表明,本算法在新呼叫阻塞率和切换呼叫掉线率等性能指标上比传统方法有显著的提高。
- 朱光喜宁国勤王洪亚
- 关键词:呼叫阻塞率
- Markov控制转换多模块软件可靠性测评方法被引量:2
- 2008年
- 针对软件多模块化发展的趋势以及当前软件可靠性测评把软件当成一个整块进行处理的缺点,本文提供了一种Markov控制转换多模块软件的可靠性测评方法。方法的主要思想包括建立基于软件体系结构的可靠性模型,并依据该模型把系统级的可靠性指标优化分配到模块级,实现在模块级对整个软件系统可靠性的监控,并在系统级的测评中进行确认。文中针对系统级测评缺少失效数据的情况,重点阐述了如何基于最大熵原理求解系统可靠性参数分布函数,以实现对系统可靠性指标的验证。
- 覃志东王洪亚李继云乐嘉锦
- 关键词:最大熵原理