李真
- 作品数:9 被引量:64H指数:4
- 供职机构:中国人民解放军信息工程大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划河南省自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于Hash技术的重复性评论检测被引量:4
- 2009年
- 随着互联网技术的迅速发展,论坛已经成为人们获取信息、发表言论的重要场所,但大量的重复评论已成为论坛舆情信息内容获取与监管系统中新的难题,因此对重复评论进行有效检测和消重就至关重要。针对重复评论在一定时间内具有数量大、密度高、内容相似度高的特点,提出了一种基于SHA-1技术的重复评论检测方法。该方法以句和段为粒度块计算评论Hash值,然后统计Hash表中相同的指纹数目以此判断评论之间的相似度,最后依据给出的相似度阈值检测评论是否为重复评论。实验结果表明,该方法可以对重复评论进行有效检测和消重,且优于传统方法。
- 李真林琛李弼程
- 关键词:舆情信息相似度计算HASH表
- 端到端神经网络机器翻译技术研究
- 在当前人工智能热潮下,机器翻译是自然语言处理的一个研究方向,具有重要的科学研究价值和实用价值。在实际应用中,语言的多变性、语义信息的表示能力的有限性、平行语料资源匮乏等方面都制约着机器翻译走向实用化和普及化。本文针对端到...
- 李真
- 关键词:端到端语言模型
- 一种基于声学空间非线性流形结构的声学模型构建方法
- 本发明涉及一种基于声学空间非线性流形结构的声学模型构建方法。本发明通过将特征空间划分为多个局部区域,对每个局部区域用一个低维的线性因子分析模型进行近似,得到声学特征空间的混合因子分析模型;将上下文相关状态的观测矢量限定在...
- 张文林屈丹李真闫红刚牛铜
- 文献传递
- 基于词向量特征的循环神经网络语言模型被引量:41
- 2015年
- 循环神经网络语言模型能解决传统N-gram模型中存在的数据稀疏和维数灾难问题,但仍缺乏对长距离信息的描述能力.为此文中提出一种基于词向量特征的循环神经网络语言模型改进方法.该方法在输入层中增加特征层,改进模型结构.在模型训练时,通过特征层加入上下文词向量,增强网络对长距离信息约束的学习能力.实验表明,文中方法能有效提高语言模型的性能.
- 张剑屈丹李真
- 关键词:语音识别语言模型循环神经网络
- 一种面向网络评论的观点主题识别方法和系统
- 本发明公开了一种面向网络评论的观点主题识别方法和系统,其方法包括步骤:a.文本输入,输入评论源和所有评论文本;b.文本预处理,对输入的文本进行词语切分和词性标注,去除停用词、标点符号和特定虚词,并统计词语的词频信息;c....
- 李弼程周杰林琛陈刚李真
- 文献传递
- 一种基于压缩感知的说话人自适应方法
- 本发明涉及一种基于压缩感知的说话人自适应方法,属于连续语音识别的声学模型自适应技术领域。本发明将说话人自适应视为一种高维信号的稀疏分解问题,在训练阶段联合本征音超矢量和训练说话人超矢量构造超矢量字典;在自适应阶段,在稀疏...
- 屈丹张文林李真闫红刚张刚
- 文献传递
- 基于端到端的神经网络机器翻译技术研究被引量:4
- 2018年
- 基于端到端的神经网络机器翻译(neuralmachinetranslation.NMT)是一种新的机器翻译方法.目前已成为机器翻译的核心技术.方法基于编码-解码框架.由一个编码器和一个解码器构成.用连接编码器和解码器的向量描述语义等价性.可以直接将源语言序列映射成目标语言序列.概括基于端到端NMT技术的研究进展.并进行展望.讨论NMT存在的难点问题及生成对抗网络和迁移学习技术在该领域上的应用.为下一步研究提供新的思路.
- 李真屈丹高明霞张文林牛铜
- 关键词:端到端
- 基于卷积神经网络的维吾尔语语音识别被引量:11
- 2017年
- 为有效减少模型训练参数,降低维吾尔语语音识别词错误率,提出了基于卷积神经网络的维吾尔语语音识别。该方法将局部连接、权值共享以及池化有机结合,极大减少了模型训练参数。同时结合maxout和dropout算法,克服模型训练中数据稀疏的问题,进一步提高识别率。THUYG-20维吾尔语语音数据库的实验结果表明,相比传统的基于高斯混合模型隐马尔可夫模型的语音识别系统和基于深度神经网络的语音识别系统,基于卷积神经网络语音识别系统使维吾尔语语音识别错误率分别降低了15.97%和2.55%。
- 梁玉龙屈丹李真张文林
- 关键词:卷积神经网络语音识别维吾尔语
- 基于循环神经网络语言模型的N-best重打分算法被引量:3
- 2016年
- 循环神经网络语言模型能够克服统计语言模型中存在的数据稀疏问题,同时具有更强的长距离约束能力,是一种重要的语言模型建模方法。但在语音解码时,由于该模型使词图的扩展次数过多,造成搜索空间过大而难以使用。本文提出了一种基于循环神经网络语言模型的N-best重打分算法,利用N-best引入循环神经网络语言模型概率得分,对识别结果进行重排序,并引入缓存模型对解码过程进行优化,得到最优的识别结果。实验结果表明,本文方法能够有效降低语音识别系统的词错误率。
- 张剑屈丹李真
- 关键词:语音识别语言模型循环神经网络