您的位置: 专家智库 > >

庞程

作品数:11 被引量:11H指数:2
供职机构:北京大学深圳研究生院更多>>
发文基金:国家自然科学基金国家高技术研究发展计划深圳市科技计划项目更多>>
相关领域:电子电信自动化与计算机技术更多>>

文献类型

  • 7篇专利
  • 2篇期刊文章
  • 2篇会议论文

领域

  • 4篇电子电信
  • 1篇自动化与计算...

主题

  • 5篇声源
  • 4篇网络
  • 3篇神经网
  • 3篇神经网络
  • 3篇声源定位
  • 3篇卷积
  • 3篇卷积神经网络
  • 2篇多声源
  • 2篇信号
  • 2篇信号子空间
  • 2篇信息融合
  • 2篇音视频
  • 2篇音源
  • 2篇声学
  • 2篇说话人
  • 2篇似然
  • 2篇似然度
  • 2篇子空间
  • 2篇相关函数
  • 2篇相似度

机构

  • 11篇北京大学
  • 2篇深圳市感动智...
  • 1篇中山大学
  • 1篇华北电力大学

作者

  • 11篇庞程
  • 7篇刘宏
  • 3篇丁润伟
  • 2篇李晓飞
  • 1篇王秀玲

传媒

  • 2篇华中科技大学...
  • 1篇第十届中国智...

年份

  • 2篇2022
  • 1篇2020
  • 4篇2019
  • 1篇2017
  • 1篇2015
  • 2篇2013
11 条 记 录,以下是 1-10
排序方式:
一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置
本发明公开一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置。本方法采用一种时频域加权机制选择单声源主导时频带,避免了多声源定位中出现的声源相互影响的问题,一定程度上抑制混响噪声影响;利用空间相关矩阵主特征...
刘宏杨冰兰海鹏庞程
文献传递
一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统
本发明公开了一种基于深度神经网络和卷积神经网络的双耳声源定位方法和系统,首先对双耳声音信号提取双耳能量差和互相关函数;接着将提取的双耳能量差和互相关函数输入训练完成的级联神经网络,在深度神经网络分支中判别声音源的方向,在...
刘宏庞程丁润伟吴璐璐孙永恒
基于多特征融合的GMM汉语普通话口音识别被引量:3
2015年
提出一种基于MFCC和共振峰频率特征的汉语普通话口音识别方法.该方法首先提取Mel频率倒谱系数(MFCC)和共振峰频率特征作为混合高斯模型(GMM)的输入,然后采用期望最大化(EM)算法训练模型,对两种特征分别建模,最后采用基于最大似然准则(ML)的信息融合策略进行口音判别.实验数据库为7个地区的语音数据.经过交叉验证,该方法对于中国典型地区普通话口音的识别率达到85.61%,比单一使用MFCC特征或共振峰频率特征分别提高了6.62%和32.90%.
庞程王秀玲张结刘宏
关键词:汉语普通话MEL频率倒谱系数信息融合
一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先,视频中说话人的唇部区域被直接提取为视觉特征,降低了人工设计视觉特征提取噪声的误差,其次,二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视...
丁润伟庞程刘宏
文献传递
基于梯度提升决策树和长短期记忆网络的语音情感识别
提出基于梯度提升决策树的语音情感特征选择方法,在中国科学院自动化研究所汉语语音情感数据集上获得了86.67%的识别率,在北航汉语语音情感数据集上获得了90.48%的识别率.特征选择使得每段音频的平均预测时间从2.5ms下...
吴璐璐庞程饶洋辉刘宏
关键词:语音情感识别特征提取
基于MFCC与基频特征贡献度识别说话人性别被引量:8
2013年
提出了一种复杂场景下基于MFCC与基频特征贡献度的说话人性别识别方法.该方法有效融合了基于Mel频率倒谱系数的模板匹配方法和基音频率判别方法.实验语音数据库包括5 000个孤立词语音和1 260个带情感的语音.在安静环境下说话人的性别识别率可以达到98.88%,在信噪比为10dB的babble噪声下通过谱减法降噪后的识别率为90.2%.实验表明:说话人情绪对性别识别的影响较大,尤其是男声.
庞程李晓飞刘宏
关键词:信息融合
一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置
本发明公开一种基于信号子空间相似度谱和粒子滤波器的多声源连续定位方法和装置。本方法采用一种时频域加权机制选择单声源主导时频带,避免了多声源定位中出现的声源相互影响的问题,一定程度上抑制混响噪声影响;利用空间相关矩阵主特征...
刘宏杨冰兰海鹏庞程
文献传递
一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统
本发明提出了一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。本方法首先提取双耳信号连续多帧的时频双耳特征线索作为神经网络的输入;然后,利用时频卷积神经网络对输入的时频双耳特征线索进行建模和融合,输出可用于...
刘宏庞程丁润伟杨冰袁佩佩
文献传递
基于MFCC与基频特征贡献度识别说话人性别
提出了一种复杂场景下基于MFCC与基频特征贡献度的说话人性别识别方法.该方法有效融合了基于Mel频率倒谱系数的模板匹配方法和基音频率判别方法.实验语音数据库包括5 000个孤立词语音和1 260个带情感的语音.在安静环境...
庞程李晓飞刘宏
关键词:说话人信息处理精度控制
文献传递
一种基于神经网络和逆熵加权的音视频关键词识别方法和装置
本发明公开一种基于神经网络和逆熵加权的音视频关键词识别方法和装置。首先,视频中说话人的唇部区域被直接提取为视觉特征,降低了人工设计视觉特征提取噪声的误差,其次,二维和三维卷积神经网络被分别用于对关键词和非关键词的语音和视...
丁润伟庞程刘宏
文献传递
共2页<12>
聚类工具0