您的位置: 专家智库 > >

国家自然科学基金(60504021)

作品数:6 被引量:67H指数:4
相关作者:关毅王晓龙姜维赵健李鹏更多>>
相关机构:哈尔滨工业大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 6篇期刊文章
  • 2篇会议论文

领域

  • 8篇自动化与计算...

主题

  • 2篇语言处理
  • 2篇自然语言
  • 2篇自然语言处理
  • 2篇分词
  • 2篇词性
  • 2篇词性标注
  • 2篇粗糙集
  • 1篇信息检索
  • 1篇蚁群
  • 1篇音字转换
  • 1篇语料
  • 1篇语料库
  • 1篇语言模型
  • 1篇增量式
  • 1篇增量式学习
  • 1篇支持向量
  • 1篇支持向量机
  • 1篇知识源
  • 1篇数据挖掘
  • 1篇条件随机域

机构

  • 7篇哈尔滨工业大...
  • 1篇微软公司

作者

  • 5篇关毅
  • 4篇王晓龙
  • 3篇姜维
  • 1篇刘秉权
  • 1篇杜新凯
  • 1篇孙承杰
  • 1篇赵健
  • 1篇徐兴军
  • 1篇李鹏
  • 1篇岳淑珍

传媒

  • 1篇电子与信息学...
  • 1篇计算机学报
  • 1篇计算机工程与...
  • 1篇中文信息学报
  • 1篇微计算机信息
  • 1篇Journa...

年份

  • 2篇2008
  • 3篇2007
  • 3篇2006
6 条 记 录,以下是 1-8
排序方式:
A MAXIMUM ENTROPY CHUNKING MODEL WITH N-FOLD TEMPLATE CORRECTION被引量:1
2007年
This letter presents a new chunking method based on Maximum Entropy (ME) model with N-fold template correction model.First two types of machine learning models are described.Based on the analysis of the two models,then the chunking model which combines the profits of conditional probability model and rule based model is proposed.The selection of features and rule templates in the chunking model is discussed.Experimental results for the CoNLL-2000 corpus show that this approach achieves impressive accuracy in terms of the F-score:92.93%.Compared with the ME model and ME Markov model,the new chunking model achieves better performance.
Sun Guanglu Guan Yi Wang Xiaolong
关键词:最大熵模型
基于支持向量机的音字转换模型被引量:9
2007年
针对N-gram在音字转换中不易融合更多特征,本文提出了一种基于支持向量机(SVM)的音字转换模型,有效提供可以融合多种知识源的音字转换框架。同时,SVM优越的泛化能力减轻了传统模型易于过度拟合的问题,而通过软间隔分类又在一定程度上克服小样本中噪声问题。此外,本文利用粗糙集理论提取复杂特征以及长距离特征,并将其融合于SVM模型中,克服了传统模型难于实现远距离约束的问题。实验结果表明,基于SVM音字转换模型比传统采用绝对平滑算法的Trigram模型精度提高了1.2%;增加远距离特征的SVM模型精度提高1.6%。
姜维关毅王晓龙刘秉权
关键词:人工智能自然语言处理支持向量机音字转换粗糙集理论
一种基于粗糙集增量式规则学习的问题分类方法研究被引量:9
2008年
该文提出一种基于粗糙集增量式规则自动学习来实现问题分类的方法,通过深入提取问句特征并采用决策表形式构建训练语料,利用机器学习的方法自动获取分类规则。与其他方法相比优势在于,用于分类的规则自动生成,并采用粗糙集理论的简约方法获得优化的最小规则集;首次在问题分类中引入增量式学习理念,不但提高了分类精度,而且避免了繁琐的重新训练过程,大大提高了学习速度,并且提高了分类的可扩展性和适应性。对比实验表明,该方法分类精度高,适应性好。在国际TREC2005Q/A实际评测中表现良好。
李鹏王晓龙关毅
关键词:粗糙集增量式学习决策表
基于标注语料库的组合歧义检测与消解
本文调查了不同的汉语分词标注语料库中的组合歧义的分布情况。基于调查结果,提出了一种利用一个大规模高质量的标注语料库中的知识来进行组合歧义的检测与消解的新方法。实验表明,我们的方法可以比基于实例的方法覆盖更多的组合歧义情况...
孙承杰黄昌宁关毅
关键词:自动分词
文献传递
基于数据挖掘思想的网页正文抽取方法的研究
为了把自然语言处理技术有效的运用到网页文档中,本文提出了一种依靠数据挖掘思想,从中文新闻类网页中抽取正文内容的方法。该方法将网页源代码进行线性化重构,然后利用重构后的代码进行网页噪声的初步去除,再经过文本分类、聚类得到网...
蒲宇达关毅王强
关键词:数据挖掘自然语言处理
文献传递
基于Swarm的人工免疫网络算法研究
2008年
智能化信息检索是网络时代最重要的应用之一。现有的机器学习理论与方法难以适应网络环境下数据的动态性和用户兴趣的多样性,成为智能化信息检索研究中的一个薄弱环节。本文通过学习和借鉴自然免疫系统的特征和原理,利用Swarm软件平台,设计和实现了一个人工免疫网络算法。该算法建立在对自然免疫系统的现有理解之上,具备自然免疫系统的主要特征,并被成功的应用于解决一个简单的模式识别问题。最后展望了将人工免疫系统这一新的机器学习机制应用到智能化信息检索系统中的前景。
杜新凯关毅岳淑珍徐兴军
关键词:信息检索人工免疫网络蚁群
基于条件随机域的词性标注模型被引量:20
2006年
词性标注主要面临兼类词消歧以及未知词标注的难题,传统隐马尔科夫方法不易融合新特征,而最大熵马尔科夫模型存在标注偏置等问题。论文引入条件随机域建立词性标注模型,易于融合新的特征,并能解决标注偏置的问题。此外,又引入长距离特征有效地标注复杂兼类词,以及应用后缀词与命名实体识别等方法提高未知词的标注精度。在条件随机域模型框架下,进一步探讨了融合模型的方法及性能。词性标注开放实验表明,条件随机域模型获得了96.10%的标注精度。
姜维关毅王晓龙
关键词:词性标注条件随机域
基于多知识源的中文词法分析系统被引量:31
2007年
汉语词法分析是中文自然语言处理的首要任务.文中深入研究中文分词、词性标注、命名实体识别所面临的问题及相互之间的协作关系,并阐述了一个基于混合语言模型构建的实用汉语词法分析系统.该系统采用了多种语言模型,有针对性地处理词法分析所面临的各个问题.其中分词系统参加了2005年第二届国际汉语分词评测,在微软亚洲研究院、北京大学语料库开放测试中,分别获得F量度为97.2%与96.7%.而在北京大学标注的《人民日报》语料库的开放评测中,词性标注获得96.1%的精确率,命名实体识别获得的F量度值为88.6%.
姜维王晓龙关毅赵健
关键词:词法分析汉语分词词性标注命名实体识别语言模型
共1页<1>
聚类工具0