张文林 作品数:33 被引量:114 H指数:6 供职机构: 解放军信息工程大学 更多>> 发文基金: 国家自然科学基金 河南省自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 电子电信 自动化与计算机技术 军事 文化科学 更多>>
结合瓶颈特征的注意力声学模型 被引量:3 2019年 目前基于注意力机制的序列到序列声学模型成为语音识别领域的研究热点。针对该模型训练耗时长和鲁棒性差等问题,提出一种结合瓶颈特征的注意力声学模型。该模型由基于深度置信网络(Deep Belief Network,DBN)的瓶颈特征提取网络和基于注意力的序列到序列模型两部分组成:DBN能够引入传统声学模型的先验信息来加快模型的收敛速度,同时增强瓶颈特征的鲁棒性和区分性;注意力模型利用语音特征序列的时序信息计算音素序列的后验概率。在基线系统的基础上,通过减少注意力模型中循环神经网络的层数来减少训练的时间,通过改变瓶颈特征提取网络的输入层单元数和瓶颈层单元数来优化识别准确率。在TIMIT数据库上的实验表明,该模型在测试集上的音素错误率降低至了17.80%,训练的平均迭代周期缩短了52%,训练迭代次数由139减少至89。 龙星延 屈丹 张文林关键词:声学模型 注意力模型 基于子空间的声学模型及自适应技术研究 语音信号位于一个高维空间中,受发音上下文、说话人、说话环境等因素的影响,它存在大量的不确定性。如何根据有限的训练数据得到精确的声学模型,如何根据少量的自适应数据对其进行调整、使之与测试数据相匹配,一直是连续语音识别中研究... 张文林关键词:连续语音识别 声学模型 说话人自适应 子空间方法 文献传递 采用长短时记忆网络的低资源语音识别方法 被引量:20 2017年 针对低资源环境下由于标注训练数据不足、造成语音识别系统识别率急剧下降的问题,提出一种采用长短时记忆网络的低资源语音识别(LSTM-LRASR)方法。该方法采用长短时记忆网络构建声学模型,从特征提取、数据扩展及模型优化3个方面提高低资源语音识别性能。在特征提取方面,提取语言无关的高层稳健特征参数,降低声学模型对训练数据的依赖;在数据扩展方面,对已有标注数据进行语速扰动,对无标注数据进行自动识别,从而自动获取更多标注数据;在模型优化方面,通过序贯区分性训练技术提高模型对易混淆音素的区分能力,利用最小风险贝叶斯解码对多个系统进行融合,进一步提高识别性能。对OpenKWS16评测数据的实验结果表明,采用LSTMLRASR方法搭建的低资源语音识别系统的词错率相对基线系统下降了29.9%,所有查询词的查询项权重代价提升了60.3%。 舒帆 屈丹 张文林 周利莉 郭武关键词:语音识别 神经网络 基于ATWV优化和偏差补偿的词相关置信度规整 被引量:1 2015年 根据测试集中词发生次数调整候选关键词置信度得分,提出一种新的基于ATWV(actual term-weighted value)优化的词相关置信度规整算法。针对ATWV优化计算中存在的置信度偏差问题,分别进行偏差线性补偿和区分性补偿,其中线性补偿通过添加加权和平移系数,以线性方式调整置信度得分;区分性补偿则通过区分性模型训练,将置信度转化为满足ATWV计算要求的正确分类概率,降低置信度偏差带来的影响。基于英文WSJ语料库的关键词识别实验表明,新的置信度规整方法可显著提高系统识别性能。 王朋 屈丹 张文林基于VQ-VAE与Do-Conv层的无监督语音表示学习 2022年 针对在无监督条件下,对语音信号提取语音表示的问题,提出了Do-VQVAE模型。提出的Do-VQVAE模型主要基于矢量量化变分自编码器的结构进行实现,并在此基础上,引入深度方向超参数化卷积层构成编码器。该模型通过编码器-解码器的结构,以无监督的方式提取语音信号的特征,将编码器的输出通过码书的映射进行量化,得到离散的语音表示。在实验过程中还引入了互信息神经估计,旨在提高学习到的语音表示的说话人不变性。提出的模型在ZeroSpeech 2019挑战的数据集上进行了训练和测试,经过测试,模型的ABX错误率相比于基线和卷积VQ-VAE模型都有明显降低,并取得了与最好系统相媲美的结果。 刘雪鹏 张文林 陈紫龙基于最大似然可变子空间的快速说话人自适应方法 被引量:3 2012年 该文提出一种基于最大似然可变子空间的说话人自适应方法。在训练阶段,对训练集中的说话人相关模型参数进行主分量分析,得到一组说话人基矢量;在自适应阶段,通过最大似然准则选取与当前说话人相关性最大的基矢量子集,进而将新的说话人相关模型限制在这组基矢量所张成的说话人子空间中,通过求解每一个基矢量对应的系数从而进行说话人自适应。与经典的基于子空间的说话人自适应方法不同,该文中的说话人子空间是在自适应阶段动态选取的,所需要估计的参数更少,在少量自适应数据下可以得到更稳健的自适应结果。在基于微软语料库的连续语音识别自适应实验中,给定极少量自适应数据(小于5 s),在有监督和无监督条件下,该文方法均优于经典的本征音自适应方法和基于最大似然线性回归的方法。 张文林 牛铜 张连海 李弼程关键词:连续语音识别 说话人自适应 子空间方法 基于SVM与UBM的语言辨识技术 语言辨识本质上属于模式识别问题,但是语音信号的动态特性使得语言辨识不能成为一个简单的静态分类问题。支持向量机(SVM)作为一种基于结构风险最小化的技术已成功地应用在模式识别的众多领域中。
本文使用全局背景模型(... 彭天强 李弼程 张文林关键词:语言辨识 支持向量机 文献传递 基于长时信息的自适应话音激活检测 被引量:2 2018年 语音信号的长时信息应用于话音激活检测中表现优越.利用三种听觉滤波器组,对语音信号进行非线性的谱分解,本文提出了六种基于听觉滤波器组的长时信息,并提出了基于长时信息的自适应话音激活检测算法.该算法无需训练数据,根据多种长时信息,直接在待测信号中挑选出类别明确的信号,然后利用这些信号训练分类模型,对待测信号按帧进行语音-非语音分类.在TIMIT语音库和NOISEX-92噪声库上的实验表明,该算法在极低信噪比环境下,仍表现出更高的准确性和更强的稳健性.同时,在线实验表明,算法在实时处理中仍能取得优异的性能. 杨绪魁 屈丹 张文林 闫红刚关键词:话音激活检测 自适应 结合全局词向量特征的循环神经网络语言模型 被引量:10 2016年 针对循环神经网络语言模型对长距离历史信息学习能力不足的问题,本文提出了结合全局词向量特征的循环神经网络语言模型。首先利用Glo Ve(Global Word Vectors)算法训练出全局词向量,然后将其作为特征向量输入到引入特征层的循环神经网络中进行训练。相对于局部词向量方法,全局词向量能够利用全局统计信息来训练出含有更加丰富的语义和句法信息词向量。为了验证新方法的性能,本文在Penn Treebank和Wall Street Journal语料库上分别进行困惑度和连续语音识别实验。实验结果表明结合全局词向量的循环神经网络语言模型的困惑度相比传统的循环神经网络语言模型降低了20.2%,同时语音识别系统的词错误率降低了18.3%。 李华 屈丹 张文林 王炳锡 梁玉龙关键词:循环神经网络 语言模型 语音识别 一种改进的基于经验模态分解的小波阈值滤波方法 被引量:10 2008年 经验模态分解是一种新的信号分解方法,该方法可将非线性非平稳信号分解成若干个单分量的本征模态函数,使得每个本征模态函数都具有一定的物理意义。本文探索了该方法在语音增强方面的应用.在文献[8]的基础上,对其方法进行了有效改进。首先将带噪语音进行经验模态分解,得到六个本征模态函数和一个余量信号,对这七个信号分别进行小波阈值滤波,并由滤波后的七个信号重构语音。结果表明,该方法的滤波效果明显优于对带噪语音直接采用小波阈值滤波的方法,并且较之文献[8]的滤波方法也具有一定的优势。 王民 李弼程 张文林关键词:经验模态分解 小波变换