吴金星
- 作品数:13 被引量:19H指数:3
- 供职机构:内蒙古大学蒙古学学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划内蒙古自治区教育厅基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- CRF和词典相结合的蒙古文地名识别研究被引量:4
- 2016年
- 蒙古语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究。首次实现了基于条件随机场模型的蒙古文地名识别。首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙古语语料库中地名的特点,在词汇特征、指示词特征、特征词特征等特征基础上引入了词性特征。之后通过地名词典补召了未识别的地名。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的地名识别性能达到了94.68%的准确率、84.40%的召回率和89.24%的F值。
- 吴金星丽丽杨振新
- 关键词:CRF词典
- 基于CRF的蒙古文人名自动识别研究被引量:3
- 2016年
- 以蒙古文人名识别为目的,实现了基于条件随机场模型的人名自动识别。从蒙古语黏着性特点分析入手,研究了蒙古语语料库中人名的存在形式以及各类人名的特点,针对蒙古语语料库中人名的特点,在词汇特征、词性特征和指示词特征等基本特征基础上引入了汉语姓氏特征、人名词典特征、兼类人名特征以及双词根特征。以内蒙古大学开发的100万词规模的标注语料库为训练数据,该模型的人名识别性能达到了94.56%的准确率,90.60%的召回率和92.54%的F值。该方法比起以往的基于规则的系统取得了较好的结果。
- 吴金星那顺乌日图杨振新
- 关键词:条件随机场
- 蒙古语词法分析的有向图模型被引量:3
- 2011年
- 我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词缀及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻画了词干到词干转移概率、词缀到词缀转移概率、词干到词缀生成概率、相应的标注之间的三种转移或生成概率,以及词干或词缀到相应标注相互生成概率。以内蒙古大学开发的20万词规模的三级标注人工语料库为训练数据,该模型取得了词级切分正确率95.1%,词级联合切分与标注正确率93%的成绩。
- 姜文斌吴金星长青那顺乌日图刘群赵理莉
- 关键词:词法分析词语切分词性标注词干提取有向图
- 蒙古语有向图形态分析器的判别式词干词缀切分
- 蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型...
- 姜文斌吴金星乌日力嘎那顺乌日图刘群
- 关键词:蒙古语词法分析词干提取有向图模型
- 文献传递
- 蒙古语词法分析的生成式统计建模
- 我们为蒙古语词法分析建立了一种生成式的概率统计模型。该模型将蒙古语语句的词法分析结果描述为有向图结构,图中节点表示分析结果中的词干、词级及其相应标注,而边则表示节点之间的转移或生成关系。特别地,在本工作中我们刻面了词干到...
- 姜文斌吴金星长青赵理莉刘群那顺乌日图
- 关键词:蒙古语词法分析词语切分词性标注词干提取统计建模
- 文献传递
- 蒙古语词干提取单带非线性自动机构造
- 2010年
- 设计并实现了一种基于单带非线性的蒙古语词干提取自动机模型.该模型采用单输入带自动机模型,使用一种具层次的主从式非线性蒙古词语表示方式.所设计的单带非线性自动机是新的解决蒙古词干提取问题的方法.
- 赵理莉张聪品吴金星长青
- 关键词:自动机
- 蒙古语语料库加工集成平台的构建
- 语料库是按照一定的原则收集和组织的真实的自然语言作品的集合。语料库经过加工,才能成为有用的资源,能够为各种自然语言处理系统所利用。所谓加工,就是把语料库中隐藏的信息显现出来的过程。根据粒度的不同,语料库的加工分为词法标注...
- 吴金星
- 关键词:蒙古语语料库词组搭配
- CRF和词典相结合的蒙古文地名识别研究
- 语在命名实体识别方面开展过人名的识别,但在地名的识别方面还没有开展相应的研究.本文首次实现了基于条件随机场模型的蒙古文地名识别.首先从蒙古语黏着性特点分析入手,研究了蒙古语语料库中地名的存在形式以及各类地名的特点,针对蒙...
- 吴金星丽丽杨振新
- 关键词:地名识别词典蒙古文
- 蒙古语有向图形态分析器的判别式词干词缀切分被引量:5
- 2011年
- 蒙古语形态分析中,我们之前的有向图模型取得了较高的性能。这种建模方式以图状结构刻画句中词干和词缀之间的概率关系,从而借助上下文信息为每个词确定最佳的切分标注候选。为每个词尽可能地枚举出所有合法的切分标注候选,是有向图模型有效工作的前提。该文提出了一种基于判别式分类的词干词缀切分策略,与之前基于词干表和词缀表的枚举方案相比,该方法对于词中含有未登录词干的情形具有更好的泛化能力。以20万词规模的三级标注人工语料库为训练数据,采用判别式词干词缀切分的有向图形态分析器,对于含有未登录词干的情形,词级切分标注正确率提高了7个百分点。
- 姜文斌吴金星乌日力嘎那顺乌日图刘群
- 关键词:蒙古语词法分析词性标注词干提取有向图判别式
- 蒙古语语料库基本加工规范初探
- 论文从蒙古语的构词法出发,参考《北京大学现代汉语语料库基本加工规范》简单地研究了蒙古语的语料库基本加工规范。这项研究在分析了蒙古语的词性标注语料的基础上归纳总结了蒙古语的语料基本加工规范,这里所说的基本加工是指词语切分和...
- 吴金星长青
- 关键词:蒙古语语料库词语切分词性标注
- 文献传递