您的位置: 专家智库 > >

焦世斗

作品数:2 被引量:25H指数:1
供职机构:大连理工大学计算机科学与技术学院更多>>
发文基金:国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文

领域

  • 2篇自动化与计算...

主题

  • 1篇信息抽取
  • 1篇信息挖掘
  • 1篇双语
  • 1篇随机场
  • 1篇条件随机场
  • 1篇中文
  • 1篇中文分词
  • 1篇分词
  • 1篇CRFS
  • 1篇抽取

机构

  • 2篇大连理工大学

作者

  • 2篇焦世斗
  • 1篇周惠巍
  • 1篇黄德根

传媒

  • 1篇计算机研究与...

年份

  • 1篇2010
  • 1篇2008
2 条 记 录,以下是 1-2
排序方式:
大规模网页中双语命名实体挖掘的研究与实现
大规模的双语命名实体库可以有效的改进机器翻译、跨语言检索等系统的性能。因而前人提出了很多抓取双语命名实体的方法。早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理新词等问题。随着互联网的...
焦世斗
关键词:信息抽取信息挖掘
文献传递
基于子词的双层CRFs中文分词被引量:25
2010年
提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度.
黄德根焦世斗周惠巍
关键词:中文分词条件随机场
共1页<1>
聚类工具0