洪晓鹏 作品数:10 被引量:34 H指数:3 供职机构: 哈尔滨工业大学 更多>> 发文基金: 国家自然科学基金 教育部“新世纪优秀人才支持计划” 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 理学 更多>>
唇读中的HLM模型及其文字流解析 被引量:1 2008年 由于唇动序列和语言序列是一对多的映射,计算机自动唇读识别仅使用HMM是远远不够的。以HMM为基础,结合语言先验知识,建立了新的唇动识别模型——HLM(HMM and Bigram Language Model)。HLM突破了单纯采用HMM计算声学后验概率进行识别的传统框架,将HMM和语言背景知识紧密联系起来,依据语言模型对语言背景知识进行统计,在识别阶段融合声学后验概率和语言学先验概率进行判决。实验结果表明,HLM可使单音识别率提高7.3%,句子识别率提高19.5%。另外,采用语言模型对文字流进行解析,而不再是盲目文字匹配,单一视觉流的解析精确率达70.5%。 王丹 姚鸿勋 万玉奇 洪晓鹏关键词:唇读 HLM HMM 新型二阶统计描述子及其在物体检测与跟踪方面的应用 随着在视频监控、自然人机交互系统和智能交通系统中越来越多地应用,物体检测与跟踪技术已经成为计算机视觉领域的关键技术之一。本文针对物体检测与跟踪任务中普遍存在的类内散度大和类间可区分度低的问题,选择了具有较好判别力和鲁棒性... 洪晓鹏关键词:协方差矩阵 核方法 文献传递 基于句子级的唇读语料库及其切分算法 被引量:12 2005年 论文对适合唇读研究的连续音节双模态语料库及其语料切分算法的设计和研究工作进行了讨论。介绍了基于句子级的双模态语料库HITBi-CAVDatabaseII的设计和建立,形式化地讨论了该库的主要特点及基于语音能量的语料切分算法的可行性。该切分算法在基于能量的语音切分算法基础上,结合了双模态语料库的一些特征,实现了对语料的自动切分。 洪晓鹏 姚鸿勋 徐铭辉关键词:唇读 唇读中基于像素的特征提取方法的研究 被引量:4 2007年 针对单独视觉通道唇读中的基于像素的特征提取问题,提出一个级联的特征提取策略。首先对图像采用相应的变换,然后对变换结果降维,最后进行特征归一化。基于对几种变换方法的比较与分析,提出利用PCA对DCT和Gabor小波变换结果降维的DCT-PCA和Gabor-PCA方法,与传统人工选择变换系数的方法相比识别率提高了约10%。 万玉奇 姚鸿勋 洪晓鹏关键词:唇读 特征提取 DCT GABOR 基于下游计数任务反向优化的多模态图像融合去鬼影方法 本发明提出基于下游计数任务反向优化的多模态图像融合去鬼影方法,所述方法包括:使用扩散融合模型为待融合的每个可见光‑红外图像对合成一张融合图像;通过知识蒸馏,使用融合模态生成模块逼近扩散融合模型的多模态融合能力;在多模态目... 洪晓鹏 孟浩梁 王晨浩 尚苗 左旺孟基于自适应扩散模型的无监督异常检测方法 基于自适应扩散模型的无监督异常检测方法,属于工业图像异常检测领域。解决了传统无监督异常检测算法存在使用传统训练方式训练扩散模型使得图像重建效果差;且图像重建过程无法自适应添加噪声,导致图像异常检测准确率低的问题。本发明使... 刘铭 姚航 尹志存 闫子飞 洪晓鹏 左旺孟情感计算与理解研究发展概述 被引量:14 2022年 情感在感知、决策、逻辑推理和社交等一系列智能活动中起到核心作用,是实现人机交互和机器智能的重要元素。近年来,随着多媒体数据爆发式增长及人工智能的快速发展,情感计算与理解引发了广泛关注。情感计算与理解旨在赋予计算机系统识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更高、更全面的智能。根据输入信号的不同,情感计算与理解包含不同的研究方向。本文全面回顾了多模态情感识别、孤独症情感识别、情感图像内容分析以及面部表情识别等不同情感计算与理解方向在过去几十年的研究进展并对未来的发展趋势进行展望。对于每个研究方向,首先介绍了研究背景、问题定义和研究意义;其次从不同角度分别介绍了国际和国内研究现状,包括情感数据标注、特征提取、学习算法、部分代表性方法的性能比较和分析以及代表性研究团队等;然后对国内外研究进行了系统比较,分析了国内研究的优势和不足;最后讨论了目前研究存在的问题及未来的发展趋势与展望,例如考虑个体情感表达差异问题和用户隐私问题等。 姚鸿勋 邓伟洪 刘洪海 洪晓鹏 王甦菁 杨巨峰 赵思成关键词:情感计算 情感识别 孤独症 图像识别 表情识别 多尺度梯度对抗样本生成网络 被引量:1 2022年 传统的行人重识别(Person Re-identification,ReID)对抗攻击方法存在需要依赖注册集(Gallery)以生成对抗样本或样本生成方式过于单一等局限.为了解决此问题,文中提出具有强攻击性的ReID对抗攻击模型,即多尺度梯度对抗样本生成网络(Multi-scale Gradient Adversarial Examples Generation Network,MSG-AEGN).MSG-AEGN采用多尺度的网络结构,获得不同语义级别的原始样本输入和生成器中间特征.利用注意力调制模块将生成器中间特征转换成多尺度权重,从而对原始样本像素进行调制,最终输出高质量的对抗样本以迷惑ReID模型.在此基础上,提出基于图像特征平均距离和三元组损失的改进型对抗损失函数,约束和引导MSG-AEGN的训练.在Market1501、CUHK03、DukeMTMC-reID这3个行人重识别数据集上的实验表明,MSG-AEGN对基于深度卷积神经网络和基于变形器网络(Transformer)的主流Re-ID方法均具有较好的攻击效果.此外,MSG-AEGN具有所需攻击能量较低且对抗样本与原始图像的结构相似度较高的优点. 石磊 张晓涵 洪晓鹏 洪晓鹏 丁文杰 沈超一种面向人工智能图像生成培训课程的学习效果评价系统及方法 一种面向人工智能图像生成培训课程的学习效果评价系统及方法,涉及计算机技术领域。为解决现有技术中,学习管理系统无法及时反馈学生学习情况的技术问题,本发明提供的技术方案为:包括用于学生学习过程数据采集和分析的多个模块,系统包... 洪晓鹏 尚苗 卿嘉诚视觉单通道唇读系统的有效性 被引量:2 2007年 在建立视觉单通道的大词汇量唇读系统中,提出了归一化的U-LDCT-KL两级唇读特征提取方法,即针对唇区分块的DCT(Discrete Cosine Transform)系数进行二级KL(Karhunen-Loeve Transform)去局域参数的交叠。此方法一方面提取了唇读的最有效的低级语义特征,另一方面更加合理地选择利用了特征的有效可区分性,使得用42维二级视觉特征,对特定人的唇动内容识别正确率达到77.8%。实验还证明了系统中分块的唇区DCT特征对的视觉单通道唇读系统是最有效的。 陈蓉 姚鸿勋 洪晓鹏 万玉奇关键词:唇读 DISCRETE COSINE