方艳
- 作品数:3 被引量:7H指数:2
- 供职机构:苏州大学自然语言处理实验室更多>>
- 发文基金:国家教育部博士点基金国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 利用扩展标记集的词结构分析被引量:2
- 2014年
- 该文给出了一种与传统分词不同的词法分析选择,提出了一种利用扩展标记集来实现词内部结构分析的方法。首先阐述了词的内部结构特点,把结构中的前后缀视为特殊的词,进而通过识别出每一个词的前后缀来识别词的内部结构。方法是把词内部结构识别问题转换成序列标注问题,通过扩展标记集,采用CRF模型来实现词的内部结构分析。最终实验表明,无论是在总体性能上,还是在各层结构的识别上都取得了较高的准确度。
- 孙静方艳丁彬周国栋
- 基于层叠CRF模型的词结构分析被引量:7
- 2015年
- 传统的中文分词就是识别出每个词的边界,它忽略了汉语中词与短语分界不清这一特点。在理论上,语言学家对词边界的确定往往各持己见,各语料库的分词标准不能统一,在实践中也不能完全满足具体应用的需求。该文给出了基于层叠CRF模型的词结构自动分析方法,能够以较高的精确度获得词的边界信息和内部结构信息。相比于传统的分词,词的结构分析更加符合汉语词法与句法边界模糊的事实,解决了语料库标准的不一致性以及应用的不同需求。
- 方艳周国栋
- 关键词:中文分词内部结构
- 词的内部结构分析
- 词法分析是自然语言处理中最基础、最关键的步骤。在中文信息处理领域,词法分析的一般做法是通过分词给词和短语划定边界,从而使汉语的后续处理过程跟英语等西方语言基本一致。然而,汉语中词与短语之间的界限比较模糊,许多情况下,某些...
- 方艳
- 关键词:词法分析中文分词内部结构
- 文献传递