陈浪舟
- 作品数:5 被引量:26H指数:2
- 供职机构:中国科学院自动化研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 一种新颖的自然语言主题转换精确定位方法被引量:2
- 1999年
- 自然语言的主题转换是自然语言理解的一个重要线索 .语言处理通常是针对不同的主题有不同的数据库和处理方法 .因此 ,如何找到文本中的主题转换点是语言处理中的一个重要内容 .该技术在语言理解、文本自动索引以及语言模型的建立等方面都有重要意义 .该文以文本主题转换时的词汇突变为表征 ,提出和定义了反映词汇突变的 4个参数 ,将这 4个参数作为输入 ,利用 BP网作为判决工具 ,建立了一个在不同尺度下文本词汇变化的层次结构模型 ,实现了一种精确的文本主题转换点的定位方法 ,其定位精度在一个句子左右 .
- 陈浪舟黄泰翼
- 关键词:自然语言处理BP算法主题转换
- 基于模糊训练集的领域相关统计语言模型被引量:5
- 2000年
- 统计语言模型在语音识别中具有重要作用 .对于特定领域的识别系统来说 ,主题相关的语言模型效果远远优于领域无关的语言模型 .传统方法在建立领域相关的语言模型时通常会遇到两个问题 ,一个是领域相关的语料不像普通语料那样充分 ,另一个是一篇特定的文章往往与好几个主题相关 ,而在模型的训练过程中 ,这种现象没有得到充分的考虑 .为解决这两个问题 ,提出了一种新的领域相关训练语料的组织方法——基于模糊训练集的组织方法 ,领域相关的语言模型就建立在模糊训练集的基础上 .同时 ,为了增强模型的预测能力 ,将自组织学习引入到模型的训练过程中 。
- 陈浪舟黄泰翼nlpr.ia.ac.cn
- 关键词:语音识别统计语言模型自组织学习
- 基于统计的自组织语言模型研究
- 黄泰翼张树武陈浪舟
- 该课题对基于统计语言模型处理方法进行了全面的、深入的理论研究及应用研究。提出了若干新的语言模型及新的基于统计的语言处理方法及算法。 该课题提出了新的自组织语言模型,包括:提出了综合求解的信息集成自组织语言模型;提出了以语...
- 关键词:
- 关键词:语言模型中文信息处理
- 一种新颖的词聚类算法和可变长统计语言模型被引量:18
- 1999年
- 基于类的统计语言模型是解决统计模型数据稀疏问题的重要方法.但该方法的两个主要瓶颈在于:(1)词的聚类.目前我们很难找到一种比较成熟且运算量适中、收敛效果好的聚类算法.(2)基于类的模型为增强对不同领域语料的适应能力往往牺牲了一部分预测能力.该文的工作就是围绕这两个瓶颈问题展开的.在词的聚类方面,作者基于自然语言词与词之间的相似度,提出了一种词的分层聚类算法.实验证明,该算法在算法复杂度和聚类效果上比传统的基于贪婪原则的统计聚类算法都有明显的改进.在提高预测能力方面,提出了一种新的基于类的可变长模型(Vari-gram )的生成方法,用此方法生成的基于类的Vari-gram 模型预测能力远高于通常的基于类的n 元模型.
- 陈浪舟黄泰翼
- 关键词:聚类统计语言模型自然语言处理
- 面向语音识别的高性能统计语言模型的研究
- 该文产生研究如何在统一考虑模型的鲁棒性和预测能力的前提下改进传统的统计语言模型的性能并提出新的建模方法和思路.人们在对统计语言模型的最新进展和主要问题进行研究的基础上,主要工作集中在以下三个方面.第一个方面是统计语言模型...
- 陈浪舟
- 关键词:面向对象语言模型语音识别
- 文献传递