国家自然科学基金(60663004)
- 作品数:17 被引量:119H指数:6
- 相关作者:余正涛于江德郭剑毅樊孝忠毛存礼更多>>
- 相关机构:昆明理工大学安阳师范学院北京理工大学更多>>
- 发文基金:国家自然科学基金国家教育部博士点基金博士科研启动基金更多>>
- 相关领域:自动化与计算机技术自然科学总论更多>>
- 基于条件随机场的汉语词性标注被引量:6
- 2011年
- 近年来条件随机场广泛应用于各类序列数据标注中,汉语词性标注中应用条件随机场对上下文建模时会扩展出数以亿计的特征,在深入分析特征产生机理的基础上对特征模板集进行了优化,采用条件随机场进一步研究了汉语词性标注中设定的特征模板集、扩展出的特征数、训练后模型大小、词性标注精度等指标之间的关系.实验结果表明,优化后的特征模板集在模型训练时间、训练后模型大小、标注精度等指标上达到了整体最优.
- 于江德葛彦强余正涛
- 关键词:汉语词性标注条件随机场上下文
- 利用问句语义结构构建旅游领域数据库查询
- 2009年
- 为了提高数据库查询的准确率,提出一种利用问句语义结构构建领域自然语言数据库查询方法。该方法通过定义问句语义模板,借助领域知识,对领域问句进行语义分析,提取问句语义块,并通过语义模式匹配实现问句语义模板向SQL的转换,从而实现自然语言数据库查询。在云南旅游领域实验的结果表明,该方法取得了较好的效果。
- 王凤林余正涛毛存礼郭剑毅
- 关键词:自然语言查询数据库查询
- 领域术语自动抽取方法研究
- 提出了一种领域术语抽取方法,该方法结合分词和粗切分两种方式对语料进行处理,利用体现字串间结合强度的互信息算法构建候选词集,选定领域种子词,通过T评价方式识别出候选集中的术语。最后构建了云南旅游领域术语自动抽取系统,并进行...
- 邱艳霞余正涛张志坤司圣涛韩露孟祥燕
- 关键词:互信息术语抽取
- 文献传递
- 基于OAI-PMH架构的元数据分类研究被引量:4
- 2007年
- 提出了一种基于规则和学习相结合的元数据分类存储的方法,该方法通过统计分析,提取对元数据分类影响较大的通用特征规则,对无法用规则分类的元数据,采用文本学习方法,将元数据记录看成由多个属性字段组成的文本,通过构造分类器实现分类。实验结果表明,采用元数据分类存储方法具有良好的检索性能。
- 郑志蕴余正涛
- 关键词:文本学习
- 基于HMM的中文旅游景点的识别被引量:10
- 2009年
- 针对旅游领域,提出了一种基于隐马尔可夫模型(HMM)的旅游景点实体识别方法.该方法采用HMM学习算法,选取句子各态顺序遍历模型,结合词性特征和校正规则实现了旅游景点的自动识别.最后进行了旅游景点实体识别测试实验,结果表明所提方法取得了较好的效果.其中,开放测试识别准确率、召回率、F值分别达到了83.4%、95.7%、89.1%.
- 薛征山郭剑毅余正涛张志坤姚贤明
- 关键词:命名实体识别HMM旅游景点
- 汉语词性标注的特征工程
- 2011年
- 上下文特征对汉语词性标注性能有重要影响。为了提高标注性能,采用最大熵模型探讨了汉语词性标注的特征工程,对其中的两个关键问题:特征窗口大小和特征模板集的设定,本文作者进行了深入研究。在Bake-off2007的PKU、NCC、CTB 3种语料上进行了封闭测试,通过对"5词语"和"3词语"不同大小的特征窗口,以及单词语、双词语和两者混合的不同特征模板集进行汉语词性标注的训练过程和标注精度的对比实验,实验结果表明:3词特征窗口训练情况和标注性能均优于5词窗口;单词语特征模板集比双词语特征模板集标注性能高出10%。这说明汉语词性标注中特征窗口开设的大小以3词窗口为宜,单词语特征模板集标注性能更好。
- 于江德周宏宇余正涛
- 关键词:汉语词性标注最大熵模型
- 基于信息增益改进贝叶斯词义消歧模型
- 词义消歧是自然语言处理的关键问题。本文通过信息增益的方法,统计出歧义词上下文各个位置对岐义词词义的影响,以此为基础,选取影响岐义词前后6个位置词构建词义消歧特征向量,采用贝叶斯算法,通过信息增益为特征向量12维特征赋予不...
- 邓宾余正涛韩露车文刚郭剑毅
- 关键词:词义消歧信息增益贝叶斯模型
- 文献传递
- 汉语语言处理接口的集成与应用
- 汉语语言处理研究目前已经有很多成熟的底层处理接口,如分词、词性标注、词语相似度计算、句子相似度计算等,为了有效地利用这些接口资源,提出集成这些接口,采用JAVA开发平台,对这些接口进行二次封装,实现接口间的无缝调用,从而...
- 邓锦辉余正涛章程毛存礼郭剑毅
- 关键词:相似度计算
- 文献传递
- 受限域FAQ中文问答系统研究被引量:6
- 2007年
- 在受限域中采用常问问题(FAQ)实现业务咨询系统是一种较好的问答模式,提出了一种受限域FAQ问答系统模型,借助于本体论的思想,构建了领域知识库,利用KDML语言定义和描述了领域本体及本体之间的关系,并实现了领域知识库"领域知网"与常识库"知网"的融合.在此基础上,提出了一种问句相似度的计算方法,该方法借助领域问句所具有的特点,结合问句中的词法关系、句法依存关系及领域概念关系,实现问句相似度计算.并以相似度计算为基础,从侯选问题集中检索相关问句,提取问题答案.云南旅游FAQ问答原型系统测试结果表明该方法可行,有较好的效果.
- 余正涛邓锦辉韩露毛存礼郑志蕴郭剑毅
- 关键词:问句相似度
- 一种基于Bootstrapping构建训练语料的方法
- 2007年
- 提出一种基于Bootstrapping算法构建训练语料的方法.该方法从自动标注的语料中随机选取部分语料,人工修正后生成种子集,用该种子集训练一个基于类的语言模型,然后使用该模型自动标注剩余的语料;再从剩余语料中选取部分语料进行以上处理,如此循环直到训练语料标注质量理想.实验结果表明,该方法在保证训练语料标注质量理想的情况下,能够大幅度地减少人工参与.
- 尹继豪樊孝忠刘士宁于江德
- 关键词:BOOTSTRAPPING命名实体识别