李博渊
- 作品数:6 被引量:2H指数:1
- 供职机构:南京大学计算机科学与技术系更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向统计机器翻译的中文分词研究
- 统计机器翻译的首要工作是获取双语词对齐信息,而词对齐需要从词边界清晰的双语语料中训练才能得到。因此,在涉及中文的统计机器翻译系统中,首先需要对中文语料进行分词处理。可以说,中文分词是中文统计机器翻译的基础工作之一,分词的...
- 李博渊
- 关键词:中文分词统计机器翻译条件随机场
- 一种适用于机器翻译的汉语分词方法被引量:2
- 2012年
- 汉语分词是搭建汉语到其他语言的统计机器翻译系统的一项重要工作。从单语语料中训练得到的传统分词模型并不一定完全适合机器翻译[1]。该文提出了一种基于单语和双语知识的适应于统计机器翻译系统的分词方法。首先利用对齐可信度的概念从双语字对齐语料中抽取可信对齐集合,然后根据可信对齐集合对双语语料中的中文部分重新分词;接着将重新分词的结果和单语分词工具的分词结果相融合,得到新的分词结果,并将其作为训练语料,利用条件随机场模型训练出一个融合了单双语知识的分词工具。该文用该工具对机器翻译所需的训练集、开发集和测试集进行分词,并在基于短语的统计机器翻译系统上进行实验。实验结果表明,该文所提的方法提高了系统性能。
- 奚宁李博渊黄书剑陈家骏
- 关键词:中文分词统计机器翻译
- 南京大学第五届全国机器翻译研讨会系统评测报告
- 本文介绍了南京大学自然语言处理研究组(NJU-NLP)参加第五届全国机器翻译研讨会机器翻译评测(汉英新闻领域单一系统)的情况。在本次评测中,NJU-NLP主要采用了一个基于短语的统计机器翻译系统;并通过添加短语特征,利用...
- 黄书剑赵迎功李博渊吴秋锋戴新宇陈家骏
- 关键词:自然语言处理机器翻译系统性能评测报告
- 文献传递
- 一种计算机中译英翻译中基于分词网的词对齐融合方法
- 本发明提出了一种计算机中译英翻译中基于分词网的汉英词对齐融合方法,包括以下步骤:步骤一,确定骨架对齐:用基于连接置信度的连接选择算法搜索选择最优的骨架连接,形成骨架对齐;步骤二,将选出骨架对齐投影到各个分词上,得到基于各...
- 奚宁李博渊汤光超赵迎功陈家骏戴新宇张建兵
- 文献传递
- 一种适用于机器翻译的汉语分词方法
- 汉语分词是构建汉语到其他语言机器翻译系统的一项重要工作。基于单语的分词不一定完全适合机器翻译,一个适合于机器翻译所需要的分词方法,应该考虑到机器翻译所具有的双语特点。本文提出了一种单语和双语知识相结合的适应于统计机器翻译...
- 李博渊奚宁黄书剑张建兵陈家骏
- 关键词:中文分词统计机器翻译
- 文献传递
- 一种计算机中译英翻译中基于分词网的词对齐融合方法
- 本发明提出了一种计算机中译英翻译中基于分词网的汉英词对齐融合方法,包括以下步骤:步骤一,确定骨架对齐:用基于连接置信度的连接选择算法搜索选择最优的骨架连接,形成骨架对齐;步骤二,将选出骨架对齐投影到各个分词上,得到基于各...
- 奚宁李博渊汤光超赵迎功陈家骏戴新宇张建兵