陈小荷
- 作品数:106 被引量:887H指数:16
- 供职机构:南京师范大学文学院更多>>
- 发文基金:国家社会科学基金江苏省社会科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学天文地球更多>>
- 数字人文视域下的古文献文本标注与可视化研究——以《左传》知识库为例被引量:41
- 2020年
- 在数字人文研究范式下,传统的以电子化和全文检索为基础的古籍研究模式已难以满足历史学、文献学、语言学等学科深度研究的需要。古籍文本特别是史书所记载的词语、时间、地点、人物、事件等要素都需要结构化的历史人文数据库,从而实现历史要素的定量分析与可视化。文章以古汉语自动分析技术为基础,结合人工标注和校对,以实体标注方法解决历史人物的同名异指和异名同指问题,对史学名著《左传》进行了词语切分、词性、时间、人物ID、地点GIS信息标注,进而实现了热点人物、人物关系网、人物游历轨迹与距离等量化统计与可视化,为古籍文本的内容标注、结构化人文知识库建设提供新的研究路径。最后,讨论了知识库进一步的完善方案与应用场景。
- 李斌王璐陈小荷王东波
- 关键词:《左传》
- 建立“汉语中介语语料库系统”的基本设想被引量:45
- 1993年
- 一 "汉语中介语语料库系统"是一个利用第一语言为非汉语的学生(以下称为"汉语L2学生")的汉语书面语料,全面、细致地记录他们汉语学习过程中的语言表现和研究他们汉语习得过程的计算机软件。该软件将收集不同背景和不同学习阶段的汉语L2学生的书面语料一百万字以上,并对语料属性、语料中的字、词、句和段落篇章等单位与项目进行完备的计算机处理,以实现对各种条件和要求下的语料数据进行便捷的机器检索和提取。研制该软件旨在为研究汉语L2学生学习和习得汉语的规律提供有关学生书面语言表现的各种单项的或综合的资料和信息,从而为建立和发展作为外语或第二语言的汉语学习理论,为丰富和完善对外汉语教学理论作一些基础性的准备工作。
- 储诚志陈小荷
- 关键词:汉语中介语中介语语料库对外汉语教学计算机软件
- 古籍版本异文的自动发现被引量:11
- 2010年
- 该文提出了古籍版本异文自动发现方法:首先由bigram计算得到句珠相似度,根据相似度发现最有可能的句珠配对,然后在异文句珠中不断地去掉最长"同文"并输出异文。研究个案是三传春秋经,结果表明,句珠配对全部正确,异文配对算法也能够正确发现全部符合定义的异文。
- 肖磊陈小荷
- 关键词:古籍相似度
- 文本的可视化知识表示被引量:14
- 2017年
- 【目的/意义】文本的可视化知识表示是把用文字符号表示的知识转化为用图形、图像或动画表示的知识,其目的在于让人直观地观察到核心信息和关键数据,从而快速发现其中蕴含的知识。【方法/过程】首先分析文本可视化大量涌现的原因,然后综述文本可视化的研究现状和发展趋势。【结果/结论】在此基础上,探讨在文本的结构、主题、情感态度和关联信息等领域典型的可视化知识表示方法,指出文本可视化研究具有广阔的应用前景。
- 马创新陈小荷
- 关键词:知识表示文本分析信息抽取
- 基于词库与词法的分词不一致研究
- 2008年
- 分词不一致问题一直严重影响带标注语料库的标注质量,利用词库与词法知识,可以合理地阐释分词不一致产生的根源,并结合建立的规则库、组合型歧义库、固定词表和特殊单字词表,可以解决汉语分词语料库中相同结构类型的分词不一致问题。计算机利用这些知识较好地识别出了"大+动词(单字)""动补结构"和"颜色词+物体名",召回率在96%以上,精确率在95%以上,并能根据用户的要求统一处理成"分"或"合"的形式。
- 董宇陈小荷
- 关键词:词库词法自动分词
- 一种利用注疏的《左传》分词新方法被引量:19
- 2012年
- 先秦文献的注疏文献中包含有大量词汇语义知识,是先秦文献自动分词的重要依据。该文以篇幅最大的先秦文献《左传》为研究对象,在对《左传》及其注疏文献进行自动对齐的基础上,提出了一种利用注疏的《左传》分词新方法。分词实验的F值达到89.0%,较之baseline有明显提升。该方法无需训练语料,利用注疏文献辅助分词的思想也适合推广到其他先秦文献的自动分词任务中去。
- 徐润华陈小荷
- 关键词:先秦文献自动对齐自动分词
- 面向中文陌生文本的人机交互式分词方法
- 2007年
- 自动分词是中文信息处理的基础课题之一。为了克服传统分词方法在处理特殊领域文本时遇到的困难,本文提出了一种新的分词方法,在没有词表和训练语料的条件下,让用户参与到分词过程中,增加系统的语言知识,以适应于不同的语料和分词标准。系统采用改进的后缀数组算法,不断提取出候选词语,交给用户进行筛选,最后得到词表进行分词。四个不同语料的实验结果显示,不经过人工筛选,分词F值可以达到72%左右;而经过较少的人机交互,分词F值可以提高12%以上。随着用户工作量的增加,系统还能够进一步提高分词效果。
- 李斌陈小荷
- 关键词:计算机应用中文信息处理自动分词未登录词识别人机交互
- 基于条件随机场的有标记联合结构自动识别被引量:9
- 2008年
- 文章介绍了条件随机场的基本原理,基于识别有标记联合结构的需要,根据有标记联合结构的语言学特征结合条件随机场的特性确定了条件随机场的7词位标注集、具有18个复杂特征的模板、增加4个语言学特征的模板。使用北京大学《人民日报》语料和清华大学973树库语料,基于复杂特征的特征模板和增加语言学特征的特征模板在含有嵌套的联合结构、无嵌套联合结构和最长联合结构语料上进行了实验,开放测试的调和平均值最高分别达到了88.21%,87.85%和84.42%。
- 王东波陈小荷年洪东
- 关键词:计算机应用中文信息处理条件随机场
- 基于义类信息的动宾搭配的考察与实验
- 本文基于《同义词词林》的义类信息,对动宾搭配短语进行了相关考察与实验。主要从100万字的清华汉语树库(TCT973)中抽取两种类型的动宾搭配词对,共计50611对次(tokens)。考察了高频双字动词所带宾语的义类分布情...
- 程月陈小荷李斌
- 关键词:义类同义词词林动宾搭配
- 带后缀'者'的派生词识别
- 通过对1200万字语料的统计得出,派生词约占词条总数的8.66%,构成派生词的词缀共有188个.其中,后缀'者'所构成的派生词词条数最多,构词成分最为复杂.采用基本词表、词例知识规则并结合词语的搭配、共现频率的混合策略对...
- 冯敏萱杨翠兰陈小荷
- 关键词:派生词后缀自动识别
- 文献传递