国家自然科学基金(60873167)
- 作品数:5 被引量:35H指数:4
- 相关作者:刘群吕雅娟李佳正刘凯麦热哈巴艾力更多>>
- 相关机构:中国科学院新疆大学中国科学院研究生院更多>>
- 发文基金:国家自然科学基金国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 题录信息的机器翻译方法
- 本文针对题录信息中的人名、地址、机构名和公司名的不同特征,分别设计了不同的翻译方法,并依靠词典和翻译规则,实现了大部分内容的翻译。对于人名翻译,本文设计了拼音转换、假名转换和同音转换的翻译方法;对于地址、机构名和公司名的...
- 李贤华于淼吕雅娟
- 关键词:机器翻译
- 文献传递
- 利用上下文信息的统计机器翻译领域自适应被引量:4
- 2010年
- 统计机器翻译系统用于翻译领域文本时,常常会遇到跨领域的问题:当待翻译文本与训练语料来自同一领域时,通常会得到较好的翻译效果;当领域差别较大时,翻译质量会明显下降。某个特定领域的双语平行语料是有限的,相对来说,领域混杂的平行语料和特定领域的单语文本更容易获得。该文充分利用这一特点,提出了一种包含领域信息的翻译概率计算模型,该模型联合使用混合领域双语和特定领域源语言单语进行机器翻译领域自适应。实验显示,自适应模型在IWSLT机器翻译评测3个测试集上均比Baseline有提高,证明了该文方法的有效性。
- 曹杰吕雅娟苏劲松刘群
- 关键词:统计机器翻译领域自适应上下文信息
- 第七届全国机器翻译研讨会机器翻译评测总结被引量:8
- 2012年
- 该文介绍了第七届全国机器翻译研讨会(CWMT2011)机器翻译评测的具体情况。本次评测重点关注各种语言到汉语的翻译,除了汉英、英汉、日汉三个语言对以外,评测还新增了五种民族语言(藏语、蒙古语、维吾尔语、哈萨克语、柯尔克孜语)到汉语的翻译评测。共有19家国内外单位的165个系统参加此次评测。除了介绍评测项目的设置、评测数据的准备、评测流程、参评单位等,本文还重点介绍了CWMT2011的评测结果,并对评测结果进行了分析,用实例说明了与评测结果相关的几个因素:源语言与目标语言是否相似、评测领域是否集中、测试集与训练及开发集语料是否相似、训练语料的规模、参评系统的技术和成熟度等。
- 赵红梅吕雅娟贲国生黄云刘群
- 关键词:机器翻译机器翻译评测
- 面向层次短语翻译的词汇化调序方法研究被引量:6
- 2012年
- 词汇化信息在短语调序中有重要的作用。然而层次短语翻译模型调序时并不考虑变量所泛化的短语的词汇化信息,因此该模型调序的歧义性较大。为此该文提出面向层次短语模型的词汇化调序方法。我们定义变量与邻接词语的调序关系,并使用变量所泛化短语片段的边界词信息来指导调序。在大规模语料的汉语到英语翻译评测任务中,我们的方法在NIST 2003-2005测试数据上获得了0.6~1.2BLEU值的提高。
- 肖欣延刘洋刘群林守勋
- 关键词:统计机器翻译
- 异种语料融合方法:基于统计的中文词法分析应用
- 基于统计的中文词法分析往往依赖大规模标注语料,语料的规模和质量直接影响词法分析系统的性能。高覆盖率、高质量的语料资源非常有限,而且适用于不同领域的语料往往具有不同的分词和词性标注标准,难以直接混合使用,从而导致既有资源未...
- 孟凡东徐金安姜文斌刘群
- 关键词:词法分析
- 文献传递
- 维吾尔语中汉族人名的识别及翻译被引量:13
- 2011年
- 该文研究了一种维吾尔语中汉族人名的识别和翻译方法。该方法在词典等传统方法的基础上,运用语言模型实现维语中的汉族人名的识别和翻译。针对维语人名的构词和拼写特点,增加了名词词缀识别预处理模块,补充了维语字母到汉语拼音的映射规则,有效提高了人名识别的正确率及召回率。在1 000句含有汉族人名的维语语料上进行测试,汉族人名识别的正确率和召回率分别达到75.2%和91.5%。
- 李佳正刘凯麦热哈巴.艾力麦热哈巴艾力吕雅娟刘群
- 关键词:语言模型名词词缀拼写规则
- 蒙古语有向图形态分析器的判别式词干词缀切分被引量:5
- 2011年
- 蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提。该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相比,该方法对于词中含有未登录词干的情形具有更好的泛化能力。以20万词规模的三级标注人工语料库为训练数据,采用判别式词干词缀切分的有向图形态分析器,对于含有未登录词干的情形,词级切分标注正确率提高了7个百分点。
- 姜文斌吴金星乌日力嘎那顺乌日图刘群
- 关键词:蒙古语词法分析词性标注词干提取有向图判别式
- 平仄信息对中文词法分析的影响
- 词法分析,作为自然语言处理领域的基础性研究课题之一,其效果直接影响自然语言处理后续的工作。本文从汉语语音的特色出发,利用机器学习的方法,学习汉语句子中词语的平仄信息,研究平仄信息对词法分析的影响。并分别在人民日报语料和宾...
- 孟凡东徐金安姜文斌刘群
- 关键词:词法分析计算语言学
- 文献传递
- 面向小领域的可信机器翻译技术研究
- 当前统计机器翻译的模型不断复杂、语料规模不断增加,但翻译质量仍是机器翻译实用化的瓶颈。在一些语料少、句子短、句式工整的小领域,可综合使用记忆库、词典、模板、规则、语言模型等资源,将基于统计和基于规则的机器翻译技术结合起来...
- 李贤华于淼吕雅娟
- 文献传递