国家自然科学基金(60776800) 作品数:29 被引量:90 H指数:6 相关作者: 刘加 宋辉 孟莎 李坤 谢鹏 更多>> 相关机构: 清华大学 微软公司 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 更多>> 相关领域: 电子电信 自动化与计算机技术 自然科学总论 更多>>
基于后验概率词格的汉语自然对话语音索引 被引量:2 2008年 语音索引是语音检索任务的关键问题之一。该文针对汉语自然对话语音索引问题,提出了基于子词的词格索引和融合方法。采用后验概率形式表示的词格取代最优路径进行索引。根据后验概率词格特性,将LVCSR识别得到的基于词的词格分解为基于子词的词格;在汉语自然对话语音关键词检测任务上,采用字、有调音节和无调音节作为子词单元,关键词检测指标品质因数相对基线系统分别提高了3.9%、4.4%和7.4%。根据后验概率词格节点之间、边之间可合并的特性,在词格内部进行合并,并对不同识别器结果词格进行融合,品质因数指标由基线系统的68.3%(用LV SCR得到的)和66.9%(用音节识别器得到的)提高到78.8%。 孟莎 余鹏 Frank Seide 刘加关键词:语音检索 基于多路线性预测技术的时延估计 被引量:2 2011年 很多麦克风阵列时延估计算法在噪声和混响环境下性能都会下降。该文提出一种基于多路线性预测(multi-ple linear prediction,MLP)的时延估计算法。通过传递函数比估计来消除通道间传递函数的非对称性,提高信号相关程度;空间预测技术引入了阵列冗余信息,并以相关系数矩阵作为时延搜索的目标函数,提高时延估计的可靠性。实验结果显示了多路线性预测算法的估计准确率更高,性能更加稳健。与几种经典算法相比,在噪声和混响环境下MLP算法的估计正确率分别提高了5%和30%以上。 宋辉 杨毅 刘加关键词:麦克风阵列 时延估计 基于广义奇异值分解的通用旁瓣消除算法 被引量:6 2011年 提出一种新的通用旁瓣消除器结构,它利用广义奇异值分解(Generalized singular value decomposition,GSVD)技术,通过广义奇异向量的变换间接估计声源到麦克风之间的传递函数。不同噪声环境下的实验结果表明,与现有的各种GSC算法相比,该算法能够更有效地抑制混响和噪声,并且增强后的语音失真最小。 宋辉 刘加关键词:麦克风阵列 语音增强 噪声消除 广义奇异值分解 基于区分性向量空间模型的语种识别 传统的语种识别方法是利用不同语种中音素组合关系不同来进行语种识别,但是并非所有音素组合都具有显著的语种间区分性信息,只有少量关键音素组合起决定性作用。为此本文提出了利用区分性向量空间模型对各语种中关键音素组合进行建模的语... 邓妍 张卫强 刘加关键词:语种识别 互信息 一个基于哼唱的歌曲检索系统 被引量:2 2009年 研究了基于哼唱的歌曲检索算法,提出了一个完整的哼唱检索框架,由特征提取模块、歌曲模板库模块、旋律匹配模块组成。为改善系统性能,在旋律提取部分采用基于小波变换的基音提取方式,旋律匹配模块在对传统的动态时间弯折进行分析后,对之进行了改进。在548首歌曲的测试集上,该系统的识别效果达到89.1%。 郭敏 刘加关键词:哼唱检索 基音提取 说话人确认技术中的一种分类器选择方法 2010年 目前主流的说话人确认系统一般包括若干个分类器,或称子系统,通过对各分类器输出分数的融合得到最终的识别结果。该文针对说话人确认系统线性分数融合中的分类器筛选问题,提出了最小矢量角(VAM)筛选准则,将各分类器得到的分数拼接成矢量,在分数矢量空间中考察各矢量的几何学关系,然后选取一个最优的矢量子集,使得它们经过线性组合能够与实际情况对应的参考矢量夹角最小。为了控制搜索规模,在分类器选取方案的优化中,采用模拟退火算法得到近似最优解。实验结果表明,基于VAM的分类器选择可以在降低所需分类器数目的同时提高系统的性能。较之依据单分类器性能最优准则选择分类器,在选择分类器数量n=16的情况下,系统等错误率相对下降15%。 侯韬 刘加关键词:说话人确认 分类器选择 模拟退火 基于听感知特征的英语句子重音检测 被引量:4 2010年 为了更有效地提取英语句子重音,提出了一种基于听感知特征的方法。根据音素特点,改进段长的归一化方法;根据听感知特性,引入半音程和响度特征,并以归一化的音节最高值代替其平均值,系统正确率达到78.7%,漏检率为9.37%。在此基础上,还提出了基于掩蔽效应的突显度模型,系统正确率提高到83.4%,漏检率下降到5.72%。实验表明,突显度模型更符合人的听感知,其性能接近人工标注的一致率(约为86%)。系统还具有文本无关和说话人无关的优点。 李坤 刘加关键词:语音信号处理 句子重音 响度 基于最大似然线性回归矩阵的说话人识别算法研究 2009年 研究了将自适应领域的最大似然线性回归(Maximum likelihood linear regression,MLLR)变换矩阵作为特征进行文本无关的说话人识别算法.本文引入了基于统一背景模型的MLLRSV-SVM说话人识别算法,并在此基础上进行高层音素聚类以进一步提高识别性能.在采用多种信道补偿技术后,在NISTSRE2006年1训练语段-1测试语段同信道和跨信道数据库上,基于MLLR特征的系统与其他最好的系统性能接近并有很强的互补性,经过简单线性融合可以极大提高识别性能. 钟山 何亮 邓妍 刘加关键词:说话人识别 支持向量机 信道补偿 段长在汉语语音识别系统后处理阶段的应用 2009年 针对传统的隐含马尔可夫模型(hidden Markov model,HMM)存在的缺陷,该文提出了一种在识别的后处理阶段使用段长模型的方法,并应用在基于HMM的汉语识别系统上。该方法利用归一化的段长模型对识别系统的解码结果重新打分,比较前后两次算出的分数从而选出更可靠的识别结果。实验表明,通过该方法将段长模型应用在识别过程中,可以显著提高识别系统的性能,大量减少识别结果中的插入错误。数据显示,该方法使识别系统的音节错误率下降了大约10%,识别系统最终的插入错误和删除错误都低于1%。 李曜 刘加关键词:语音识别 MLLR特征的SVM语种识别算法 2009年 为了挖掘更多语种间区分性信息进行可靠的自动语种识别,本文提出一种将自适应领域的最大似然线性回归(maximum likelihood linear regression,MLLR)矩阵作为特征的语种识别算法。该算法首先对每个语种训练Gauss混合模型(Gaussian mixture model,GMM),然后对每个语音段在所有语种的GMM上计算MLLR矩阵。将得到的多类MLLR矩阵经归一化后拼接形成超矢量作为特征输入支持向量机(support vector machine,SVM)分类器进行训练和识别。比较了均值方差和排序两种归一化方法,并将多类MLLR-SVM算法与传统GMM语种识别算法进行对比。实验表明:排序归一化算法优于传统的均值方差归一化;建立在GMM模型基础上的MLLR-SVM系统性能有9.7%的提升,并与GMM分类器有很强的互补性。 钟山 刘加关键词:语种识别