许洪波
- 作品数:126 被引量:605H指数:13
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家重点基础研究发展计划国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学理学电子电信更多>>
- 基于信息论的文本分类模型被引量:3
- 2008年
- 从信息论的角度,提出了一种新的文本分类模型。该模型以文本提供的关于类别的信息作为分类依据,从另一个角度来思考文本分类问题。从实用性的角度来看,该模型与传统的朴素贝叶斯模型和基于KL距离的中心向量法具有一定的关系,并给出了证明。根据广义信息论的基本概念,又对此模型进行推广,提出了特征权重的概念,可以通过修正特征权重来修正文本分类模型,为成功解决文本分类模型的修正问题提供了理论基础。
- 唐亮段建国许洪波梁玲
- 关键词:文本分类互信息信息熵
- 一种面向图数据的预装载缓存策略
- 2016年
- 真实世界中存在很多数据规模大且关联性强的图数据,而图缓存技术可有效提高对图数据的访问效率和查询效率。为此,提出一种面向大规模图数据的预装载缓存策略。采用基于节点访问日志和大度数优先2种装载方法,利用图数据访问的局部性特点缓存频繁访问的数据。在图存储系统GolaxyGDB中设计一个分布式图数据缓存框架,并描述其中图缓存策略的实现过程。实验结果表明,该策略能有效提高图数据复杂查询的命中率,降低响应时间,满足实际应用中的在线访问需求。
- 左遥梁英许洪波黄硕
- 关键词:访问日志APACHE分布式缓存
- 大规模信息过滤技术研究及其在Web问答系统中的应用
- 该文讨论了知识挖掘中的大规模信息过滤技术及其在Web问答系统中的应用,对信息过滤特别是自适应过滤的若干关键问题进行了深入细致的研究,提出了一体化的高性能信息过滤方法,取得了比目前的信息过滤系统更好的结果.在总结分析了传统...
- 许洪波
- 关键词:信息过滤用户需求不确定信息
- 文献传递
- 基于分块的网页信息解析器的研究与设计被引量:79
- 2005年
- 详细介绍了网页信息解析的基本技术手段,在综合权衡优缺点的基础上,提出了针对新 闻网站复杂结构页面较为有效的分块算法,并结合实际的项目需求,设计实现了网页信息解析器 TVPS,实验结果表明,该解析器具有良好的性能,满足实际的需求。
- 于满泉陈铁睿许洪波
- 关键词:WEB挖掘HTML标记视觉特征网页分块
- 大规模短文本的不完全聚类被引量:39
- 2011年
- 聚类分析是数据挖掘的一个重要手段,人们可以通过聚类发现信息中潜在的热点或规律。至今,已经有大量聚类算法被研究和提出。随着互联网的日益普及,查询日志、Twitter等短文本信息逐渐在人们生活中起着越来越重要的作用。这类短文本信息数量巨大,通常可达到千万乃至亿级,现有的聚类算法在对这类大规模短文本信息进行聚类分析时往往显得异常无力。该文通过对实际应用中的短文本信息进行实验分析,发现了这类数据类别所具有的"长尾现象",并由此提出了不完全聚类思想,可以有效地提高这类短文本信息的聚类性能。
- 彭泽映俞晓明许洪波刘春阳
- 关键词:聚类分析
- 社交网络账号的马甲关系辨识方法被引量:2
- 2014年
- 正确辨识网络账号的马甲关系,能够维护网络环境的安全与和谐,抑制网络中不法行为和虚假信息。基于文本挖掘的作者身份识别一直受到广泛关注,但对社交网络中文本作者关系鉴别的研究较少,该文提出了一种社交网络账号的马甲识别方法,基于网络语言的风格和账号关系,分别提取网络文本特征和账号之间的回复关系频次两组特征构成特征集合,同时基于账号组合构建训练样本向量空间,鉴别网络账号的马甲关系。结合论坛数据对所提方法进行了实验验证,准确率达到80%,结果表明该方法具有较高的马甲辨别准确率。
- 樊茜许洪波梁英
- 关键词:语言风格社交网络
- 基于动态内容的文摘方法研究
- 随着互联网的发展,信息的更新越来越快,从而导致内容的动态演化性越来越明显。为了从不断更新的动态内容中生成文摘,本文提出了一种具有时序偏向的多文档文摘方法——动态文摘。针对当前的相关研究,本文探讨了动态文摘的建模方法,并在...
- 张瑾许洪波
- 文献传递
- 开放式中文事件检测研究被引量:1
- 2020年
- 在中文事件检测任务中,存在着领域互相独立,领域间的数据无法互通,需要分别为每个领域标注大量数据的问题。本文充分借鉴前人的研究,提出一个基于迁移学习的开放式中文事件检测方法。首先基于两个触发词关联假设,一个是同一个事件类型下,触发词与触发词在语义空间上有着一定的关联,且关联性较强。第二个是不同事件类型之间的触发词和触发词之间也存在着一定的关联,不过其关联性弱于相同事件类型下触发词之间的关联性。之后借助外部词典,构建候选词与种子触发词的关系特征以及候选词的上下文特征,再利用卷积神经网络构建事件检测的基础模型和迁移模型。最后对于新领域下的事件检测,只需要借助极少量的已知领域的标注数据即可完成。在ACE2005的中文事件数据集上,该方法在触发词识别这项任务上仅用20%的数据,其效果即可超越当前的主流方法。
- 严浩许洪波沈英汉程学旗
- 关键词:卷积神经网络
- 自动识别网页中维吾尔文的方法及其系统
- 本发明涉及自动识别网页中维吾尔文的方法和系统,方法包括:步骤1,确定作为识别特征的n元组中n的取值,使用的每种语言,统计语言的各个n元组在使用语言的训练网页中的出现频率,为一个权重值,并且取n元组在预设标准编码中的有效位...
- 倪耀群许洪波
- 文献传递
- 一种微博流行趋势预测方法、装置及系统
- 本发明提供一种微博流行趋势预测方法、装置及系统。所述方法包括:获得微博用户群体行为特征描述,所述微博用户群体行为特征描述表征用户发布微博的行为特征以及微博转发和评论中用户的行为特征。所述方法还包括:根据微博发布后第1至i...
- 张国清边建功程学旗傅川许洪波
- 文献传递