您的位置: 专家智库 > >

贾宁

作品数:9 被引量:44H指数:5
供职机构:中国科学院声学研究所更多>>
发文基金:国家重点基础研究发展计划中国科学院声学研究所知识创新工程项目中国科学院知识创新工程青年人才领域前沿项目更多>>
相关领域:自动化与计算机技术语言文字更多>>

文献类型

  • 8篇期刊文章
  • 1篇会议论文

领域

  • 8篇自动化与计算...
  • 2篇语言文字

主题

  • 5篇中文
  • 2篇姓名识别
  • 2篇省略
  • 2篇中文姓名
  • 2篇中文姓名识别
  • 2篇最大熵
  • 2篇最大熵模型
  • 1篇信息处理
  • 1篇语义块
  • 1篇政治
  • 1篇政治斗争
  • 1篇知识
  • 1篇人名
  • 1篇世界知识
  • 1篇特征函数
  • 1篇中文信息
  • 1篇中文信息处理
  • 1篇自动文本分类
  • 1篇文本分类
  • 1篇计算机

机构

  • 7篇中国科学院研...
  • 6篇中国科学院
  • 2篇中国科学院大...

作者

  • 9篇贾宁
  • 7篇张全
  • 2篇李娟
  • 1篇臧翰芬
  • 1篇吴晨

传媒

  • 4篇计算机工程与...
  • 1篇计算机工程
  • 1篇计算机应用研...
  • 1篇中文信息学报
  • 1篇Journa...
  • 1篇第三届HNC...

年份

  • 1篇2010
  • 2篇2009
  • 1篇2008
  • 3篇2007
  • 1篇2006
  • 1篇2005
9 条 记 录,以下是 1-9
排序方式:
基于最大熵模型和规则的中文姓名识别被引量:7
2007年
中文姓名识别是中文信息处理的一项重要技术,识别的召回率对其它需要以姓名识别为基础的中文信息处理技术有至关重要的影响。提出了一种统计模型和处理规则相结合的中文姓名识别方法:首先以最大熵模型识别潜在姓氏,而后再通过判定规则作进一步处理。真实语料的开放测试表明,该方法在召回率方面有明显的优势,可以达到94%以上的召回率,同时能保证较高的准确率。
贾宁张全
关键词:中文姓名识别最大熵
使用概念基元特征进行自动文本分类被引量:8
2007年
自动文本分类技术是大规模文档数据处理的关键技术,在文本分类过程中通常先进行文本表示,即把文本转化为特征向量,这其中常用的特征有特征词、词频、N-gram等等。论文研究了一种新的特征,即词语的HNC概念符号。词语的HNC概念符号来自于HNC(概念层次网络,HierarchicalNetworkofConcepts)建立的语义网络,以符号表达式的方式表示了词语的语义信息。因此使用HNC概念符号作为特征实际上是以文本中蕴含的语义信息作为特征,和词频等使用文本表层信息的特征有本质的不同。采用最大熵模型的方法建立分类器,以分词和HNC概念符号作为特征进行了研究,并对分类结果进行了比较。结果表明,HNC特征优于分词特征。
贾宁
关键词:文本分类HNC
基于句间关系的汉语语义块省略恢复被引量:6
2008年
语义块是句子的语义构成单位,句子内发生的省略现象可以归结为语义块的省略。该文在句类分析的基础上,从小句间语义块共享关系的角度分析语义块的省略。将语义块的省略分为语义块整块共享形成的省略和语义块部分共享形成的省略,分析了两种情况的特点,并给出了相应的处理算法。测试表明,该算法对于两种省略均有很好的处理效果。
贾宁张全
关键词:计算机应用中文信息处理省略
Concept-based approach for information retrieval被引量:1
2006年
A concept-based approach is expected to resolve the word sense ambiguities in information retrieval and apply the semantic importance of the concepts, instead of the term frequency, to representing the contents of a document. Consequently, a formalized document framework is proposed. The document framework is used to express the meaning of a document with the concepts which are expressed by high semantic importance. The framework consists of two parts: the "domain" information and the "situation & background" information of a document. A document-extracting algorithm and a two-stage smoothing method are also proposed. The quantification of the similarity between the query and the document framework depends on the smoothing method. The experiments on the TREC6 collection demonstrate the feasibility and effectiveness of the proposed approach in information retrieval tasks. The average recall level precision of the model using the proposed approach is about 10% higher than that of traditional ones.
吴晨张全贾宁
关键词:CONCEPT
基于模板的中文人物评论意见挖掘被引量:4
2010年
使用基于模板的方法对中文人物评论语句进行意见元素挖掘,提取出句中所含的评价对象、评价词语,并分析出意见的倾向性。进行了中文人物评论语句的自动意见挖掘实验,实验中首先建立了一定数量的熟语料库,然后从语料库中生成意见模板,最后用生成的模板来提取语句的意见元素。实验获得了72.55%的F-score,表明该算法是有效的。
李娟张全贾宁臧翰芬
中文词语倾向性分析处理被引量:6
2009年
意见挖掘是自然语言处理研究领域的一个新热点。词语倾向性的判定是意见挖掘的基础和重要环节。该文进行了中文词语倾向性的自动判定实验。实验中采用了《现代汉语褒贬用法词典》中的词语做为褒贬判定的核心词汇,以同义词词典扩展了褒贬义词典的词语,并使用二元语法模型来判定多倾向性词语的倾向。实验结果褒义词的F-Score为79.31%,贬义词的F-Score为78.18%。
李娟张全贾宁
关键词:二元语法
政治斗争的领域句类表示式设计
句群的处理是段落和篇章处理的基础,而句群的语境领域知识表述对句群处理起着关键的作用。如何用计算机来表示几乎无限的世界知识,并在自然语言理解技术中应用这些知识,一直以来都是计算语言学界的难题。HNC理论指出,一个句群的描述...
贾宁
关键词:HNC理论世界知识
文献传递
基于最大熵模型的中文姓名识别被引量:12
2007年
最大熵模型可以对非常广泛的自然语言现象建立概率模型,该文提出了一种使用统计模型的中文姓名识别方法,采用最大熵原则建立统计模型,并运用该模型计算姓名概率。系统采用真实语料进行开放测试的结果表明,在保证一定准确率的情况下,系统召回率可达90%以上。
贾宁张全
关键词:中文姓名识别最大熵特征函数
使用句间关系恢复人名和机构名称省略
2009年
语义块是句子的语义构成单位,句子内发生的省略现象可以归结为语义块的省略。在句类分析的基础上,从小句间语义块共享关系的角度分析语义块中人名和机构名称的省略。将省略现象分为语义块整块共享形成的省略和语义块部分共享形成的省略,分析了两种情况的特点,并给出了相应的处理算法。测试表明,该算法对于两种省略均有很好的处理效果。
贾宁张全
关键词:省略
共1页<1>
聚类工具0