俞晓明
- 作品数:69 被引量:53H指数:5
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术艺术理学更多>>
- 基于自适应权重的语义检索模型融合方法及系统
- 本发明提出一种基于自适应权重的语义检索模型融合方法,包括:以检索信息进行稀疏检索,获取稀疏检索结果及对应的稀疏排序分值;以该检索信息进行稠密检索,获取稠密检索结果及对应的稠密排序分值;构建权重预测模型,基于该检索信息、该...
- 薛源海夏浩耘贺广福陈翠婷俞晓明沈华伟程学旗
- 基于动力学模型的网络突发事件检测方法及系统
- 本发明提出一种基于动力学模型的网络突发事件检测方法及系统,包括:对指定的网络平台进行事件抽取,得到多个结构化事件,并将多个结构化事件中指向同一基本事件的结构化事件进行消解聚合,得到多个结构化事件对应的多个基本事件;以结构...
- 程学旗史存会朱运昌俞晓明刘悦
- 文献传递
- 多文档短摘要生成技术研究被引量:2
- 2019年
- 自动摘要技术用于将较长篇幅的文章压缩为一段较短的能概括原文中心内容的文本。多文档冗余度高,电子设备所展示的空间有限,成为摘要发展面临的挑战。本文提出融合图卷积特征的句子粗粒度排序方法。首先将句子之间的相似度矩阵视为拓扑关系图,对其进行图卷积计算得到图卷积特征。然后通过排序模型融合图卷积特征以及主流的抽取式多文档摘要技术对句子进行重要度排序,选取排名前四的句子作为摘要。最后提出基于Seq2seq框架的短摘要生成模型:①在Encoder部分采用基于卷积神经网络(CNN)的方法;②引入基于注意力的指针机制,并将主题向量融入其中。实验结果表明,在本文场景下,相较于循环神经网络(RNN),在Encoder部分基于CNN能够更好地进行并行化,在效果基本一致的前提下,显著提升效率。此外,相较于传统的基于抽取和压缩的模型,本文提出的模型在ROUGE指标以及可读性(信息度和流利度)方面均取得了显著的效果提升。
- 张随远薛源海俞晓明俞晓明刘悦
- 关键词:多文档
- 大规模网络数据的感知与获取方法和系统
- 本发明涉及一种大规模网络数据的感知与获取方法,包括:感知网络数据的信息来源并将其拆分为信源,对该信源设置采集策略;生成采集任务,注册采集节点,以该注册节点拉取采集器并对其进行配置;根据该采集策略,通过该采集器执行该采集任...
- 程学旗史存会俞晓明郭岩贺广福孟剑周秀花姜世勇肖若晗赵岭张乐焦利颖周映彤周术夏余智华刘悦
- 一种网站列表页面的分类方法、系统及存储介质
- 本发明涉及一种网站列表页面的分类方法,方法包括:步骤100,获取一组网站页面集合,网站页面集合归属于同一网站;步骤200,分别针对每一网站页面提取网页数据特征;步骤300,通过网站页面的超链接列表以及网站网页的链接地址(...
- 孟剑樊晓然郭岩贺广福陈银鹏史存会俞晓明刘悦程学旗
- 文献传递
- 一种基于中间人的互联网数据采集方法及系统
- 本发明提出一种基于中间人的互联网数据采集方法及系统,包括:通过安装中间人代理证书至网页信息采集设备,建立网页信息采集设备的中间人,网页信息采集设备访问互联网中网页信息时,中间人代理网页信息采集设备的全部网络流量;中间人获...
- 程学旗史存会胡耀康朱运昌俞晓明刘悦
- 文献传递
- 一种基于脚本的网页采集服务方法和系统
- 本发明涉及一种基于脚本的网页采集服务方法和系统,包括:客户端,服务前端和服务执行单元,服务执行单元处理服务请求的过程包括:根据脚本队列中采集脚本的顺序,调度脚本队列中位于队首的采集脚本作为执行脚本;解释执行执行脚本,当执...
- 张凯程学旗俞晓明刘悦余智华孙海洲
- 文献传递
- 一种基于Kubernetes的脚本解释型服务代理方法和系统
- 本发明涉及一种基于Kubernetes的脚本解释型服务代理方法和系统,该方法包括:设置一客户端,用于生成代理脚本并作为服务请求;设置一Kubernetes系统,并在该Kubernetes系统中部署若干服务;设置一服务执行...
- 张凯程学旗俞晓明刘悦孙海洲
- 文献传递
- 基于多平台的网络事件流行度预测方法与系统
- 本发明公开一种基于多平台的网络事件流行度预测方法,包括以下步骤:分别获取多个平台的网络事件的流行度预测序列,并融合多个流行度预测序列形成网络事件的流行度联合预测序列;分别获取多个平台的网络事件的流行度历史序列,并融合多个...
- 程学旗匡广生郭岩刘悦陈银鹏付宏宇俞晓明
- 文本复制检测中的指纹算法研究
- 随着网络等信息传播手段的发展,数字文档的复制无所不在。与复制相伴产生的社会、经济和技术问题,如剽窃检测、知识产权保护等,给复制检测及指纹技术带来了机遇和挑战。复制检测中的“指纹”是指从文档中提取出的一组特征,通过比较文档...
- 俞晓明
- 关键词:指纹算法