江苏省教育厅哲学社会科学基金(2013SJB870004)
- 作品数:7 被引量:9H指数:2
- 相关作者:顾磊赵阳王勇更多>>
- 相关机构:南京邮电大学南京林业大学更多>>
- 发文基金:教育部人文社会科学研究基金江苏省教育厅哲学社会科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术历史地理文化科学更多>>
- 基于分层选择策略的主动学习分词方法
- 2015年
- 为了克服训练样本不足、获取大量标注样本费时费力的问题,在基于不确定选择策略的基础上,提出了一种新的基于分层选择策略的主动学习方法。使用新提出的选择策略从大量无标注的样本中选择最有价值的样例,进行标注后加入到训练集中来训练分词器。最后在PKU、MSR和山西大学数据集上进行测试,并与不确定选择策略进行比较。结果表明提出的分层选择策略在相同大小的训练语料下可以获得更高的分词准确率,同时还降低了人工标注的代价。
- 梁喜涛顾磊
- 关键词:中文分词
- 古籍全文文本化中存在的若干问题被引量:5
- 2013年
- 随着多媒体硬件技术和计算机软件技术的迅速发展,古籍全文数字化从20世纪80年代开始就逐渐成为研究的热点,并且取得了很多不错的成绩。然而,目前古籍全文数字化多采用全文图像化的方式,这种方式与全文文本化方式相比不利于古籍的全文检索。文章在搜集整理当前研究与应用成果的基础上,对古籍全文文本化涉及到的系统设计、古籍的种类、古籍图像的获取、古籍图像的自动版面分析、古籍图像中文字的自动分割与识别等几个方面存在的若干问题进行了探讨。
- 顾磊赵阳
- 关键词:古籍数字化版面分析文字分割字符识别
- 基于字串切分统计词典的繁体中文拼写检错方法
- 2016年
- 针对繁体中文拼写检错的问题进行了研究,提出一种基于字串切分统计词典的检错方法。利用语料库中字串出现的频率信息作为检错依据,根据字串及其频率信息来建立统计词典,并设计了基于统计规则评判的检错算法。以SIGHAN7会议中文拼写校验任务中用于检错评测的1 000句测试集作为实验测试集,并与此会议提交的结果进行比较,实验结果表明,与基于复杂语言模型的检错方法相比,该方法在实现简单的同时也有很好的检错效果,获得了较高的准确率和精确率以及较低的误报率。
- 王勇顾磊
- 关键词:中文分词
- 山海经中的古人地理空间认知研究被引量:1
- 2014年
- 在现有《山海经》研究的基础上,结合地理空间认知理论体系,针对《山海经》一类的古籍研究中较少涉及的角度进行了探讨。从空间认知的角度进一步确定了《山海经》的性质为地理书的及《山海经》中古人空间认知的特点。对从这一角度出发进行的研究成果进行了展望,并进行了思考。
- 赵阳
- 关键词:山海经
- 林业古籍断句模式语料库建设方案探讨——以《树艺篇》为训练文本被引量:2
- 2015年
- 随着中文信息处理技术的不断提高,古籍自动化标点的研究也日益趋向成熟。但是现有的模式并不太适合林业类古籍。林业古籍有其独特的表达和术语,与一般性质的古籍存在区别的。本文以《树艺篇》为训练文本,对林业古籍断句语料库的建设问题进行探讨。
- 赵阳
- 关键词:断句语料库
- 基于最近邻的主动学习分词方法被引量:1
- 2015年
- 分词是中文自然语言处理中的一项关键基础技术。为了解决训练样本不足以及获取大量标注样本费时费力的问题,提出了一种基于最近邻规则的主动学习分词方法。使用新提出的选择策略从大量无标注样本中选择最有价值的样本进行标注,再把标注好的样本加入到训练集中,接着使用该集合来训练分词器。最后在PKU数据集、MSR数据集和山西大学数据集上进行测试,并与传统的基于不确定性的选择策略进行比较。实验结果表明,提出的最近邻主动学习方法在进行样本选择时能够选出更有价值的样本,有效降低了人工标注的代价,同时还提高了分词结果的准确率。
- 梁喜涛顾磊
- 关键词:中文分词