公共文化服务平台

国家自然科学基金(91120303): 作品数：15 被引量：43H指数：4; 相关作者：韩纪庆郑铁然刘文举郑贵滨王伟更多>>; 相关机构：哈尔滨工业大学中国科学院自动化研究所三明学院更多>>; 发文基金：国家自然科学基金国家重点基础研究发展计划福建省自然科学基金更多>>; 相关领域：自动化与计算机技术电子电信交通运输工程机械工程更多>>

Integrating induced probability into decoding for large vocabulary continuous speech recognition被引量：2: 2012年; This paper integrates location information of frames into conventional acoustic model(AM)and language model(LM)likelihoods,in order to distinguish potential path candidates more precisely at decoding stage.This paper proposes an induced probability,which represents location information of frames within the whole acoustic space.By integrating the induced probability,the decoder is directed to search within the most promising regions of acoustic space.Promising paths are enhanced and unlikely paths are weakened.Experiments conducted on Chinese Putonghua show that the character error rate is reduced by 10.95%relatively without increasing decoding complexity significantly.Finally,pruning analysis shows that integrating location information of frames into traditional decoding framework is helpful for improving system performance.; YANG Zhanlei LIU Wenju CHAO Hao; 关键词：连续语音识别大词汇量声学模型

A signal subspace dimension estimator based on F-norm with application to subspace-based multi-channel speech enhancement被引量：2: 2012年; Although the signal subspace approach has been studied extensively for speech enhancement,no good solution has been found to identify signal subspace dimension in multichannel situation.This paper presents a signal subspace dimension estimator based on F-norm of correlation matrix,with which subspace-based multi-channel speech enhancement is robust to adverse acoustic environments such as room reverberation and low input signal to noise ratio (SNR).Experiments demonstrate the presented method leads to more noise reduction and less speech distortion comparing with traditional methods.; LI Chao LIU Wenju; 关键词：信号子空间维数估计

鲁棒声学事件检测综述被引量：2: 2012年; 声学事件是指一段单一完整并能够引起人们感知注意的短时连续声音信号,而声学事件检测是指对这些声学事件进行识别。随着便携式摄像机与视频网站的迅猛发展,基于内容的声学事件检测在各领域的应用日趋广泛,例如个性化多媒体搜索、数字图书馆、网络管理与信息安全等。近年来,尽管研究者们提出了很多声学事件检测方法,但是由于采集设备、采集环境与传输条件等的千差万别,新环境下的音频数据日趋繁杂,使得类内数据差异较大且类间数据易混,从而导致传统识别方法的性能急剧下降,因此迫切需要研究当前环境下的鲁棒声学事件检测方法。; 石自强韩纪庆郑铁然; 关键词：混合模型

语音关键词检测中置信测度方法研究综述: 2014年; 语音关键词检测是指在语音文档中寻找并定位特定的词的技术,输入所需查询的关键词通常是以文本的形式给出。作为语音文档分析等技术的核心部分,语音关键词检测始终是语音处理领域研究的热点。置信测度计算是关键词检测技术的重要组成部分,对确认正确检出的关键词及拒绝误识都起到决定性作用,置信测度的优劣对检测系统性能有着直接的影响。介绍并总结了语音关键词检测中测置信测度方法的研究工作,提供了详尽的参考文献。; 李海洋韩纪庆郑贵滨郑铁然

基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练被引量：1: 2015年; 关键词检测是从连续语音流中检测预先定义的给定词的技术,是语音识别领域的一个重要应用。目前的关键词检测研究中,主流的方法是基于连续语音识别器的先识别后检测的两阶段方法,语音识别器的准确率对关键词检测有很大影响。本文首先在识别阶段引入深度学习技术来改善关键词检测算法的性能。进而针对识别阶段和检测阶段缺乏紧密联系,耦合度不够的问题,研究了侧重关键词的深度神经网络声学建模技术,利用非均匀的最小分类错误准则来调整深度神经网络声学建模中的参数,并利用Ada Boost算法来动态调整声学建模中的关键词权重。结果表明,利用非均匀最小分类错误准则来调整深度神经网络参数进行优化的声学模型,可以提高关键词检测的性能。; 王朝松韩纪庆郑铁然; 关键词：关键词检测 ADA BOOST

基于快速近似时序池化的端到端声学事件识别: 2020年; 声学事件识别系统的性能很大程度上取决于音频特征学习的有效性。由于音频信号属于时序性信号,要获得有效的音频特征,就需要提取其中的时序信息。作者曾提出了一种有效的时序性特征学习方法:时序池化。然而,由于其需要求解一个没有闭式解的优化问题,导致无法灵活地运用在当前流行的深度学习框架之中。为此,本文在保留时序池化的前提下,提出了一种计算方式更为简单的快速近似时序池化方法。基于此方法又进一步提出一种用于解决端到端声学事件识别问题的卷积神经网络。实验结果表明,所提出的网络可以取得比目前大多数方法更好的识别性能。; 张力文韩纪庆; 关键词：卷积神经网络

基于DNN和多模态信息融合的复杂音频场景识别: 音频场景识别通过分析音频场景中包含的声学事件,实现对音频的高层抽象概念和语义内容上的感知。在实际应用中,如果音频数据中存在大量场景无关的声音干扰,将会导致音频场景识别性能急剧下降。为解决此问题,本文使用深度神经网络(De...; 史秋莹郑铁然韩纪庆; 关键词：多模态信息融合; 文献传递

Auditory filter based broadband MUSIC algorithm for sound source localization被引量：7: 2013年; Based on the analysis of the shortcomings of broadband MUSIC algorithm with short-time Fourier transform(SF-MUSIC) for sound source localization,a broadband MUSIC algorithm with auditory filter(AF-MUSIC) was proposed.The proposed algorithm first employs auditory filter bank to decompose the signals received on the microphone array,and then locates the sound source with MUSIC algorithm over every frequency channel.At last,by combining with the subinterval frequency estimation,the final localization result is gained.Evaluations on the proposed algorithm prove that comparing with the SF-MUSIC algorithm,the AF-MUSIC algorithm decreases the average error of the estimation results with 2.5479 degree in different source conditions.The accuracy of sound source DOA estimation is enhanced effectively.; LIAO FengchaiLI PengLIU Wenju; 关键词：MUSIC算法声源定位滤波器组短时傅立叶变换频率估计

基于Fisher判别字典学习的说话人识别被引量：6: 2016年; 稀疏表示已成功应用于说话人识别领域。在稀疏表示中,构造好的字典起着重要的作用。该文将Fisher准则的结构化字典学习方法引入说话人识别系统。在判别字典的学习过程中,每一个字典对应一个类标签,因此同类别训练样本的重构误差较小。同时,保证训练样本的稀疏编码系数类内误差最小,类间误差最大。在NIST SRE2003数据库上,实验结果表明该算法得到的等错误率是7.62%,基于余弦距离打分的i-vector的等错误率是6.7%。当两个系统融合后,得到的等错误率是5.07%。; 王伟韩纪庆郑铁然郑贵滨陶耀; 关键词：说话人识别字典学习 FISHER判别

基于深度学习的环境声音识别被引量：7: 2018年; 作为一种感知周围环境十分有效的方法,环境声音识别(Environment Sound Recognition,ESR)被广泛地应用在机器人导航、移动机器人、音频检索、音频取证以及其它基于情景感知、可穿戴的应用中。目前,较为简单的分类器已经大规模应用在ESR问题中,但却不能很好地反映和识别环境声音,而深度神经网络作为一种高性能、多层的神经网络,为更好地描述原始数据特征和解决模式识别问题提供了更有效的途径。为此,本文将深度神经网络应用在环境声音识别问题中,并对音频特征进行特征融合,通过训练深度信念网络(Deep Belief Network,DBN)进行环境场景的识别。实验结果表明,基于特征融合的方法的识别性能相较于分别采用音频特征的方法识别在性能上有明显提升,且将深度学习应用在ESR问题中具有明显的优势。; 史秋莹郑铁然

国家自然科学基金(91120303)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(91120303)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈