您的位置: 专家智库 > >

徐彦君

作品数:8 被引量:140H指数:5
供职机构:中国科学院声学研究所更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术电子电信更多>>

文献类型

  • 7篇期刊文章
  • 1篇学位论文

领域

  • 5篇自动化与计算...
  • 3篇电子电信

主题

  • 4篇语音
  • 4篇语音识别
  • 3篇汉语
  • 2篇视差
  • 1篇多尺度
  • 1篇多尺度分解
  • 1篇人脸
  • 1篇人脸特征
  • 1篇神经网
  • 1篇神经网络
  • 1篇神经元
  • 1篇视觉
  • 1篇听觉
  • 1篇图象
  • 1篇匹配方法
  • 1篇自适
  • 1篇自适应
  • 1篇相位
  • 1篇立体匹配方法
  • 1篇基于相位

机构

  • 7篇中国科学院

作者

  • 8篇徐彦君
  • 5篇杜利民
  • 4篇侯自强
  • 2篇杜利民
  • 2篇金贵昌
  • 1篇周治
  • 1篇张欣

传媒

  • 2篇中国图象图形...
  • 2篇电子科技导报
  • 1篇声学学报
  • 1篇电子学报
  • 1篇中国科学(E...

年份

  • 3篇2000
  • 3篇1999
  • 2篇1998
8 条 记 录,以下是 1-8
排序方式:
听觉视觉双模态汉语语音识别关键技术的研究
该文在对AVSR的研究现状进行了深入的分析以后,集中介绍了对AVSR的一些关键技术的研究:汉语双模态数据库CAVSR1.0的建设、二维视觉特征提取技术研究平台以及三维立体视觉匹配算法的研究.二维视觉特征是目前计算AVSR...
徐彦君
关键词:汉语语音识别
汉语听觉视觉双模态数据库CAVSR1.0被引量:31
2000年
听觉视觉双模态语音识别在国际上已经逐渐成为当前语音识别的热点之一,汉语的双模态识别研究也已开始启动。然而,由于视觉信息获取及处理难度极大,目前的双模态语音数据库的建设尚显薄弱,汉语方面更是空白。鉴于此,我们在进行听觉视觉双模态语音识别关键技术研究的同时,在分析国外同类数据库的结构的基础上,结合汉语语音的特点,建立了汉语语音的第一个双模态数据库CAVSR1.0。它具有如下特点:采用的语料涵盖所有声韵母,其规模(总数据量、音节量)超出目前国际上同类数据库;语料分布符合汉语声韵母的实际分布概率,因此其反映的规律具有代表性;捆绑了自动音节分割程序及脸部主要特征标定程序,使数据库具有很强的可扩展性。
徐彦君杜利民李国强张欣周治
关键词:汉语听觉视觉语音识别
汉语听觉视觉双模态信息的互补作用被引量:8
2000年
从汉语听觉视觉双模态数据库CAVSR1.0中选出 10个人的视听数据 ,每人发 14个音节 /ba,bi,bian ,biao ,bin ,de ,di,dian ,duo,dong,gai,gan ,gen ,gu/ .感知实验的样本分单语音信号、语音信号 +视觉信号、单视觉信号 3类 .单语音信号、语音信号+视觉信号分别包括 5种声学条件 :无噪语音信号 ,信噪比S/N为 0 ,-8,-12 ,-16dB的语音信号 .由 2 0名观察者进行感知识别 .通过对实验结果分析 ,发现人类对单视觉信号有较强的识别能力 ;声母的发音方法、发音部位和韵母造成了视觉上的不同差异 ;在噪声环境下 ,视觉信息对听觉信息有非常明显的补偿作用 ,可以使正确识别率大幅度提高 .
周治杜利民徐彦君
关键词:汉语
面向未来的交互信息技术——听觉视觉双模态语音识别(AVSR)(上)被引量:2
1999年
介绍了听觉视觉双模态语音识别技术的背景、生物物理基础以及研究现状,简单叙述了中国科学院声学研究所语音交互信息技术研究中心(SIT)在该领域的最新进展,最后对该领域未来的研究方向、潜在的应用领域进行了分析。
徐彦君杜利民侯自强
关键词:语音识别
彩色图象中主要人脸特征位置的全自动标定被引量:49
2000年
人脸特征的定位是计算机人脸识别中必需的一步 .该文提出了一种在彩色图象中进行人脸部特征定位的新方法 .该方法只取彩色图象中的红色成分作为研究对象 ,以简化处理及提高信噪比 ;首先利用对原图的垂直灰度投影曲线确定脸的左右边界 ,并分离出此区域的高低灰度图 ,以便分图定位脸部特征 ;接着利用对经边缘检测的高灰度图的水平灰度投影确定下颌、嘴、鼻、眼的垂直位置 ,然后在相应位置附近 ,对鼻、眼、嘴依此进行准确定位 .算法最后的输出为人眼的位置、鼻端的位置及鼻宽、嘴的位置及嘴宽和下颌的垂直位置 .大量实验表明 。
张欣徐彦君杜利民
关键词:边缘检测
基于相位的尺度自适应立体匹配方法被引量:46
1999年
本文实现了一种高效的基于相位的尺度自适应的立体匹配方法.基于相位的立体匹配算法,是目前最为先进的立体匹配算法,具有视差精度高、稳定性好、可以并行计算等优点.对于常见的相位“卷绕”问题,常采用“由粗及细”的逐步求精策略.但是,相位信号在尺度、位置空间中的极点的邻域内不稳定,此时,逐步求精策略可能产生不可恢复的错误,存在鲁棒性问题,解决的方案是采用某种尺度自适应的方法.我们针对多尺度滤波器的构造问题提出了一种基于频率响应积分面积相关的选择规则,并采用质数序列作为Gabor滤波器组的波长,实现了一种新颖高效的尺度自适应算法,不仅能够鲁棒地得到精确的视差估计,且能预测很大的视差范围,而且具有很高的计算效率.
徐彦君杜利民侯自强金贵昌
关键词:多尺度分解GABOR函数相位视差
面向未来的交互信息技术——听觉视觉双模态语音识别(AVSR)(下)被引量:3
1999年
3SIT在AVSR方面的研究进展中科院声学所语音交互信息技术研究中心(SIT)主要从事与语音有关的交互信息技术的研究,涵盖了识别、合成、编码等技术领域。SIIT在AVSR领域的研究始于1996年,经过两年多的研究,在信号分析基础技术、采集与分析的集...
徐彦君杜利民侯自强
关键词:语音识别
一种用于立体匹配的改进的神经网络方法被引量:7
1998年
实现了一种用于静态视觉立体匹配的神经网络方法。文献[1]提出了一种用于静态体视匹配的神经网络方案,其方案用于随机点图对时存在严重的缺陷。针对随机点图对的特点,对神经网络的偏置输入进行了修正,改进的神经网络能够有效地提取随机点图对中的立体深度信息。为了进一步提高收敛速度和平滑边缘特征,又在偏置输入中引入射线特征,改进了神经元的初始化。在工作站上进行的大量实验模拟表明,我们所做的改进提高了网络的迭代速度和视差图的边缘特征平滑性。
徐彦君杜利民侯自强侯自强
关键词:神经网络神经元视差计算机视觉
共1页<1>
聚类工具0