江苏省普通高校研究生科研创新计划项目(CXLX120357)
- 作品数:2 被引量:4H指数:1
- 相关作者:刘浏李斌陈小荷曲维光冯敏萱更多>>
- 相关机构:南京师范大学南京大学更多>>
- 发文基金:江苏省普通高校研究生科研创新计划项目国家社会科学基金中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于注疏注音信息的词性自动校正
- 2013年
- 为了提高先秦文献词性标注的精确率,提出一种利用注疏文献的注音信息来进一步校正词性标注结果的方法。《春秋左传正义》中对破读字音有注释,且有较为规范的注音体例,在标注了《广韵》中多音字词性的基础上,通过比对注音,确定《左传》中某多音字的读音,进而确定词性。实验一共检查了词性标注精确率达90%的《左传》中1231个含多音字的句子,涉及到单音节词词型423个,正确校正了41个词型共92处错误。对古籍校勘及古籍信息处理有较高价值。
- 冯敏萱刘浏
- 关键词:词性标注语言信息
- 先秦词汇的时代特征自动获取及文献时代的自动判定被引量:4
- 2013年
- 词汇的时代特征能反应词汇在一个时代发展变化的规律。该文将先秦分为前春秋、春秋和战国三个时代,获取并研究这三个时代的时代独有词、时代特征词及时代发源词。该文提出两种自动判断先秦文献时代的方法,分别基于向量相似度和朴素贝叶斯分类器,在25种先秦文献上后者的分类性能更稳定。最后该文使用朴素贝叶斯分类器验证了《列子》并非成书于先秦。
- 刘浏李斌李斌曲维光
- 关键词:向量空间模型朴素贝叶斯分类器