您的位置: 专家智库 > >

国家高技术研究发展计划(2006AA012140)

作品数:6 被引量:60H指数:5
相关作者:黄德根周惠巍焦世斗罗彦彦于静更多>>
相关机构:大连理工大学北京科技大学更多>>
发文基金:国家高技术研究发展计划国家自然科学基金更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 6篇中文期刊文章

领域

  • 6篇自动化与计算...
  • 1篇语言文字

主题

  • 3篇中文
  • 3篇CRFS
  • 2篇语义单元
  • 2篇随机场
  • 2篇条件随机场
  • 2篇中文分词
  • 2篇句法分析
  • 2篇分词
  • 1篇短语
  • 1篇短语结构
  • 1篇信息处理
  • 1篇信息检索
  • 1篇引擎
  • 1篇语言处理
  • 1篇语义
  • 1篇人名识别
  • 1篇树库
  • 1篇搜索
  • 1篇搜索引擎
  • 1篇索引

机构

  • 5篇大连理工大学
  • 1篇北京科技大学

作者

  • 4篇黄德根
  • 2篇周惠巍
  • 1篇于静
  • 1篇焦世斗
  • 1篇钱志强
  • 1篇杨元生
  • 1篇马建军
  • 1篇余祖波
  • 1篇高庆狮
  • 1篇李莉
  • 1篇罗彦彦

传媒

  • 2篇中文信息学报
  • 1篇计算机研究与...
  • 1篇小型微型计算...
  • 1篇大连理工大学...
  • 1篇计算机科学

年份

  • 2篇2010
  • 2篇2009
  • 2篇2008
6 条 记 录,以下是 1-6
排序方式:
分布式策略与CRFs相结合识别汉语组块被引量:7
2009年
该文提出了一种基于CRFs的分布式策略及错误驱动的方法识别汉语组块。该方法首先将11种类型的汉语组块进行分组,结合CRFs构建不同的组块识别模型来识别组块;之后利用基于CRFs的错误驱动技术自动对分组组块进行二次识别;最后依据各分组F值大小顺序处理类型冲突。实验结果表明,基于CRFs的分布式策略及错误驱动方法识别汉语组块是有效的,系统开放式测试的精确率、召回率、F值分别达到94.90%、91.00%和92.91%,好于单独的CRFs方法、分布式策略方法及其他组合方法。
黄德根于静
关键词:组块识别分布式策略浅层句法分析
一种基于语义单元的查询扩展方法被引量:5
2008年
查询扩展技术通过向初始查询请求中加入相似或者相关的词,来减少查询请求与相关文献在表达上的不匹配现象,改善检索性能。本文利用语义单元的语义表达能力和语义单元之间的关系,将与初始查询具有密切语义关系的查询词或短语加入到初始查询请求中,更加全面地表示了用户的查询意愿。算法的时间复杂度为O(L),只与搜索请求的长度L有关,与语义单元表示库的规模无关,这对实时性要求较高的搜索引擎来讲是很实用的。
李莉高庆狮
关键词:信息检索查询扩展搜索引擎语义单元
基于CRFs边缘概率的中文分词被引量:23
2009年
将分词问题转化为序列标注问题,使用CRFs标注器进行序列标注是近年来广泛采用的分词方法。针对这一方法中CRFs的标记错误问题,该文提出基于CRFs边缘概率的分词方法。该方法从标注结果中发掘边缘概率高的候选词,重组边缘概率低的候选词,提出FMM的奖励机制修正重组后的子串。在第四届SIGHAN Bakeoff中文简体语料SXU和NCC上进行闭式测试,分别在F-1值上达到了96.41%和94.30%的精度。
罗彦彦黄德根
关键词:计算机应用中文信息处理中文分词
一种利用统计语义单元识别中文人名的方法被引量:1
2008年
从语义语言的角度提出一种利用统计语义单元识别中文人名的方法.在该方法中没有词的概念,一切单位都是语义单元,语义单元有参数和类型等属性.通过语义单元对句子进行语义切分,获得句子的语义单元图,并利用联合概率模型求得语义单元图中概率最大的路径,然后根据人名模式集在该路径上识别人名.初步实验表明,该方法是一种值得探索的新方法.
余祖波马建军
关键词:自然语言处理中文人名识别语义单元
短语结构到依存结构树库转换研究被引量:6
2010年
为基于真实语料进行句法分析,构建了大规模的短语结构树库和依存结构树库,并尝试在两种结构的树库之间进行转换.讨论了宾州中文树库(Penn Chinese Treebank,CTB)中短语结构树库和依存结构树库的关系,并基于现代中文依存文法制定了中心子节点过滤表,依据该表将短语结构的CTB转换为依存结构树库.在CTB中随机抽取200句语料,转换正确率达到了99.50%.基于该转换得到的依存结构树库可以进一步进行中文依存关系解析的研究.
周惠巍黄德根钱志强杨元生
关键词:句法分析短语结构树库
基于子词的双层CRFs中文分词被引量:25
2010年
提出了基于子词的双层CRFs(conditional random fields)中文分词方法,旨在解决中文分词中切分歧义与未登录词的问题.该方法是建立在基于子词的序列标注模型上.方法第1层利用基于字CRFs模型来识别待测语料中的子词,这样做是为了减少子词的跨越标记错误和增加子词识别的精确率;第2层利用CRFs模型学习基于子词的序列标注,对第1层的输出进行测试,进而得到分词结果.在2006年SIGHAN Bakeoff的中文简体语料上进行了测试,包括UPUC和MSRA语料,分别在F值上达到了93.3%和96.1%的精度.实验表明,基于子词的双层CRFs模型能够更加有效地利用子词来提高中文分词的精度.
黄德根焦世斗周惠巍
关键词:中文分词条件随机场
共1页<1>
聚类工具0