胡骏 作品数:12 被引量:38 H指数:3 供职机构: 合肥工业大学 更多>> 发文基金: 国家自然科学基金 长江学者和创新团队发展计划 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 环境科学与工程 更多>>
一种智能健康座舱的控制方法 本发明公开了一种智能健康座舱的控制方法,包括:构建座舱内驾驶员的状态识别模型,构建座舱内驾驶员的驾驶习惯模型,监测座舱内驾驶员的实时体征数据,并利用状态识别模型基于座舱内驾驶员的所述体征数据确定出座舱内驾驶员的实时驾驶状... 胡骏面向社交媒体的高质量内容识别 被引量:2 2020年 如何从海量多媒体文章中自动识别高质量内容是信息推荐、搜索引擎等系统的核心功能之一.现有的方法在训练中依赖大量的人工标注数据.针对其未考虑社交媒体中的社交信息和视觉内容的问题,提出一种基于正无标记(positive and unlabeled, PU)学习的图卷积高质量文章内容识别模型--基于PU学习的图卷积网络(graph convolutional network based on positive and unlabeled learning, GCN-PU),在统一的框架中使用一个异构网络同时建模社交媒体文章的文本和社交信息,并在该网络上使用图卷积网络来融合这些信息得到高阶特征.另外,使用多媒体文章的全局视觉布局信息来捕捉文章的综合视觉质量特征,用于补充图卷积网络输出的高阶特征.最后,在训练机制和损失函数中引入了PU学习来充分利用社交媒体中大量未标注的文章信息.在真实社交媒体数据集上的实验结果表明,相比于现有的方法, GCN-PU方法的F值提升了3%以上. 赵泉 胡骏 方全 钱胜胜 徐常胜关键词:社交媒体 基于标签路径特征融合的在线Web新闻内容抽取 被引量:23 2016年 精准地抽取新闻网页的内容,是提高Web新闻分析等应用系统工作质量的关键技术之一.由于缺少Web新闻出版的标准,存在大量不同的出版格式,并且Web本身是一种具有高度异构性的大数据载体,导致Web新闻内容抽取成为一个开放性问题.经大量实例分析发现,新闻网页内容与其上的标签路径存在潜在的关联性.因此,设计了标签路径特征系,以从不同视角区分网页内容和噪音.在特征相似性分析的基础上,提出了一种基于组合特征选择的特征融合策略,并设计了基于融合特征的Web新闻内容抽取方法 CEPF.CEPF是一种快速的通用、无需训练的在线Web新闻内容抽取算法,可抽取多种来源、多种风格、多种语言的Web新闻网页.在Clean Eval等测试数据集上的实验结果表明,CEPF方法优于CETR等抽取方法. 吴共庆 胡骏 李莉 徐喆昊 刘鹏程 胡学钢 吴信东关键词:内容抽取 WEB新闻 一种面向领域主题的Web新闻动态聚合方法 本发明适用于网络信息处理领域,提供了一种面向领域主题的Web新闻动态聚合方法,所述方法包括下述步骤:面向用户预定义的领域站点列表,根据用户提供的主题,利用垂直搜索引擎和元搜索引擎获取搜索记录列表;对搜索记录列表进行去重和... 吴共庆 胡骏 刘鹏程 王钊 胡东辉 李磊 胡学钢 吴信东文献传递 基于块密度加权标签路径特征的Web新闻在线抽取 被引量:3 2017年 Web新闻内容抽取是众多"大数据"和"大知识"应用的基础,也是一个开放性问题.标签路径特征和文本块密度特征是目前解决该问题的两类优良特征.标签路径特征能较好地区分全网页的内容与噪声,但难以识别内容块中的噪声和噪声块中的内容;文本块密度特征能较好地识别高密度的内容块,但鲁棒性不足.因此,本文提出了一种可有效结合标签路径特征和文本块密度特征的Web信息抽取模型CEDP,结合两种特征的优点,设计了一种基于文本块密度加权的标签路径特征,并设计了基于该特征的Web新闻抽取算法CEDP-NLTD.CEDP-NLTD是一种快速的、通用的、无需训练的在线Web新闻内容抽取算法,适用于Web大数据环境下的多种来源、多种风格、多种语言的异构Web新闻网页抽取任务.在Clean Eval等测试数据集上的实验结果表明,CEDP-NLTD方法优于CETR,CETD,CEPR,CEPF等在线抽取方法,且优于基于CEDP模型直接使用CETD方法设计的3种块密度特征所形成的算法CEDP-TD,CEDP-CTD,CEDP-DSum. 吴共庆 刘鹏程 胡骏 胡学钢关键词:内容抽取 WEB新闻 社会多媒体网络表示学习研究 随着互联网的飞速发展,每天都会产生大量社会多媒体数据。这些社会多媒体数据中包含大量的关系信息,它们被广泛用于推荐系统、专家发现等重要的应用以挖掘有价值的信息。网络(数据结构)被广泛用于建模社会多媒体数据中的关系信息,网络... 胡骏文献传递 一种自动分类的网页搜索排序算法 被引量:4 2019年 针对传统网页排序算法Okapi BM25通常会出现网页与查询关键词领域无关的领域漂移现象,以及改进算法需要人工建立领域向量的问题,提出了一种基于BM25和softmax回归分类模型的网页搜索排序算法。方法对网页文本进行数据预处理并利用词袋模型进行网页文本的向量表示,之后通过少量的网页数据训练Softmax回归分类模型,来预测测试网页数据的类别分数,并与BM25信息检索的分数结合在一起,得到最终的网页排序结果。实验结果显示该检索算法无须人工建立领域向量,即可达到很好的网页排序结果。 刘铭瑀 刘学亮 胡骏关键词:网页排序 一种智能健康座舱的控制方法 本发明公开了一种智能健康座舱的控制方法,包括:构建座舱内驾驶员的状态识别模型,构建座舱内驾驶员的驾驶习惯模型,监测座舱内驾驶员的实时体征数据,并利用状态识别模型基于座舱内驾驶员的所述体征数据确定出座舱内驾驶员的实时驾驶状... 胡骏一种钙钛矿太阳能安全帽 本实用新型公开了一种钙钛矿太阳能安全帽,涉及安全帽技术领域,包括安全帽外壳,安全帽外壳的表面开设有安装槽,安装槽的内部固定设有钙钛矿太阳能板,安全帽外壳的表面设有散热组件,散热组件包括进风管和两个固定组件,进风管固定设置... 王欢 李爽 赵登科 胡骏 申博 向希成基于标签路径特征的网页正文自适应抽取方法研究 随着互联网的飞速发展,Web已经成为重要的信息发布平台。然而,Web网页中除了正文信息,还包含着导航、广告和版权信息等大量与网页主题无关的“噪音”信息。网页中的噪音信息会大大降低搜索引擎、新闻聚合等系统的效果,同时也为这... 胡骏关键词:特征抽取