谷晶晶
- 作品数:4 被引量:3H指数:1
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 添加冒号和分号分类标签特征的汉语逗号分类被引量:2
- 2014年
- 标点分析在句子和篇章分析中有重要作用,其中逗号的功能分类是标点分析的重点和难点。该文研究添加冒号和分号分类标签为特征的逗号自动分类。首先给出逗号、冒号和分号的分类方法;然后介绍基于此分类方法的逗号、冒号和分号标点分类语料库;最后分别考察添加冒号类别标签、分号类别标签以及同时添加冒号和分号类别标签为特征的逗号分类结果。实验结果表明,三种情况下的逗号分类正确率均有不同程度的提高。
- 李艳翠谷晶晶周国栋
- 关键词:篇章分析
- 汉语逗号与冒号的自动分类识别研究
- 标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用,是篇章分析研究的一个关键。因此,标点符号识别是一项很有意义的研究工作。本文针对标点符号多元分类的自动识别问题进行了深入的研究,主要内容包括以下...
- 谷晶晶
- 关键词:篇章分析最大熵模型CRF模型
- 文献传递
- 基于分词与词性标注的汉语逗号自动分类
- 2015年
- 近年来,标点符号作为篇章的重要部分逐渐引起研究者的关注。然而,针对汉语逗号的研究才刚刚展开,采用的方法也大多都是在句法分析的基础上,尚不存在利用汉语句子的表层信息开展逗号自动分类的研究。提出了一种基于汉语句子的分词与词性标注信息做逗号自动分类的方法,并采用了两种有监督的机器学习分类器,即最大熵分类器和CRF分类器,来完成逗号的自动分类。在CTB 6.0语料上的实验表明,CRF的总体结果比最大熵的要好,而这两种分类器的分类精度都非常接近基于句法分析方法的分类精度。由此说明,基于词与词性做逗号分类的方法是可行的。
- 谷晶晶周国栋
- 关键词:最大熵
- 汉语冒号标注与自动识别方法研究被引量:1
- 2016年
- 随着对篇章分析研究的逐步加深,标点符号研究成为了篇章分析与消歧的一个重要切入点。有效识别标点符号在句子中的作用,将有助于句法分析、篇章分析以及其他自然语言处理技术的发展。该文主要任务是实现汉语冒号的人工标注与自动识别,其中自动识别采取了规则法和基于统计的最大熵法。基于规则的方法比较简单且易于实现,最大熵方法把规则融入到统计之中,在实验结果中具有更好的识别效果。
- 谷晶晶周国栋
- 关键词:最大熵篇章分析