您的位置: 专家智库 > >

丁亮

作品数:4 被引量:16H指数:3
供职机构:中国科学技术信息研究所更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术文化科学更多>>

文献类型

  • 4篇中文期刊文章

领域

  • 3篇自动化与计算...
  • 3篇文化科学

主题

  • 4篇机器翻译
  • 4篇翻译
  • 3篇统计机器
  • 3篇统计机器翻译
  • 2篇自适
  • 2篇自适应
  • 2篇领域自适应
  • 1篇对齐
  • 1篇训练数据
  • 1篇神经网
  • 1篇神经网络
  • 1篇评测
  • 1篇评测报告
  • 1篇主题词表
  • 1篇网络
  • 1篇卷积
  • 1篇卷积神经网络
  • 1篇汉语主题词表
  • 1篇ISTIC
  • 1篇标签

机构

  • 4篇中国科学技术...
  • 1篇北京市科学技...

作者

  • 4篇何彦青
  • 4篇丁亮
  • 3篇李颖
  • 2篇姚长青
  • 1篇张运良
  • 1篇李辉
  • 1篇王星
  • 1篇石崇德
  • 1篇王莉军
  • 1篇孙瑶

传媒

  • 3篇情报工程
  • 1篇情报学报

年份

  • 1篇2017
  • 3篇2016
4 条 记 录,以下是 1-4
排序方式:
统计机器翻译领域自适应方法比较研究被引量:2
2016年
统计机器翻译常常面临训练数据与待翻译文本领域不一的问题,从而影响了翻译的性能,因此领域自适应一直是研究者关注的课题。本文以传统自适应方法和现行的机器学习方法为框架,介绍了近年来统计机器翻译领域自适应研究的进展。分析了各类研究方法的优缺点并对未来研究做出展望。
丁亮李颖何彦青
关键词:统计机器翻译领域自适应
2015全国机器翻译研讨会ISTIC评测报告被引量:3
2016年
中国科学技术信息研究所(ISTIC)机器翻译研发工程历史悠久,几经变迁。本文在回顾ISTIC机器翻译发展历史的基础上,介绍了最近参加第十一届全国机器翻译研讨会机器翻译评测(简称CWMT’2015)系统的具体表现。CWMT’2015评比中,ISTIC参加了维汉、藏汉、蒙汉三个机器翻译评测项目。本文阐述了本单位机器翻译系统的实现框架以及实施细节,并分析了它们在评测数据上的性能表现。
何彦青孟令恩丁亮石崇德李颖王莉军孙瑶
关键词:机器翻译
深度学习在统计机器翻译领域自适应中的应用研究被引量:4
2017年
统计机器翻译往往存在待翻译文本来源多样和领域不一致的问题。为了提升面向不同领域的文本的翻译质量,需要根据待翻译文本对训练语料进行筛选以达到领域自适应的目的。目前统计机器翻译的领域自适应方法以目标数据为基准,着重利用统计技术对训练数据或者翻译模型进行领域的适应调整,缺乏明确的领域标签。本研究在本组之前研究基础上利用深度学习中卷积神经网络(Convolutional neural network,CNN)对短文本进行建模,构建合适的网络结构进行有监督学习,获取完整的句子语义信息,按照待翻译文本的领域信息对训练语料进行归类筛选,获取与待翻译文本领域一致的训练数据,并将其应用到统计机器翻译中。本文采用万方英文摘要在统计机器翻译系统上进行测试,仅利用部分训练数据就得到了超越原始训练数据BLEU打分的翻译结果,证明了本研究的有效性和可行性。
丁亮姚长青何彦青李辉
关键词:统计机器翻译卷积神经网络
基于汉语主题词表的统计机器翻译训练数据筛选方法及实验研究被引量:9
2016年
统计机器翻译的训练数据通常来源复杂,主题多样,文体不一,与待翻译目标文本的领域不能保证完全一致,导致领域自适应问题。目前统计机器翻译的领域自适应方法以目标数据为基准,着重对训练数据或者翻译模型进行领域的适应调整,但其缺乏数据明确的领域标签。本研究利用《汉语主题词表》的领域知识,对数据进行领域归类,并将其应用到统计机器翻译中。通过汉语句子进行领域自动标注,生成测试集和开发集的领域标签集合,利用领域标签集合筛选训练数据。经过在统计机器翻译系统上进行测试,仅利用部分训练数据就获取了与原始训练数据可比较的翻译结果,证明了本研究方法的有效性和可行性。
丁亮李颖何彦青王星张运良姚长青
关键词:统计机器翻译汉语主题词表
共1页<1>
聚类工具0