您的位置: 专家智库 > >

国家自然科学基金(60373100)

作品数:6 被引量:54H指数:4
相关作者:王晓龙刘远超徐志明钟彬彬楼喜中更多>>
相关机构:哈尔滨工业大学更多>>
发文基金:国家自然科学基金国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术生物学自然科学总论更多>>

文献类型

  • 6篇中文期刊文章

领域

  • 4篇自动化与计算...
  • 1篇生物学
  • 1篇自然科学总论

主题

  • 1篇蛋白质二级结...
  • 1篇蛋白质二级结...
  • 1篇蛋白质序列
  • 1篇信息获取
  • 1篇遗传算法
  • 1篇语言处理
  • 1篇语义计算
  • 1篇中文
  • 1篇主题
  • 1篇主题分析
  • 1篇自动文摘
  • 1篇自然语言
  • 1篇自然语言处理
  • 1篇文本
  • 1篇文档
  • 1篇文档聚类
  • 1篇文摘
  • 1篇文章主题
  • 1篇聚类
  • 1篇二级结构预测

机构

  • 5篇哈尔滨工业大...

作者

  • 4篇王晓龙
  • 4篇刘远超
  • 2篇钟彬彬
  • 2篇徐志明
  • 1篇刘秉权
  • 1篇徐永东
  • 1篇董启文
  • 1篇陈燕敏
  • 1篇关毅
  • 1篇楼喜中
  • 1篇赵健
  • 1篇林磊

传媒

  • 2篇计算机工程与...
  • 1篇中国科学(C...
  • 1篇哈尔滨工业大...
  • 1篇计算机应用研...
  • 1篇Scienc...

年份

  • 1篇2007
  • 4篇2005
  • 1篇2004
6 条 记 录,以下是 1-6
排序方式:
一种基于文章主题和内容的自动摘要方法被引量:20
2004年
文章介绍了一种新的使用自然语言处理技术的自动系统。通过融合基于内容的方法和基于主题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的。该方法首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,对文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果,生成;最后采用指代消解技术使生成的更连贯流畅。与仅基于内容的自动文摘系统相比较,评测结果显示,该系统生成的质量有明显提高。
陈燕敏王晓龙刘远超楼喜中
关键词:自动文摘自然语言处理主题分析
中文文本时间信息获取及语义计算被引量:12
2007年
为了解决中文文本中时间信息的形式表达、抽取及时间语义计算等一系列问题,提出了一种可以适用于多种自然语言处理任务的时间信息处理系统,通过对汉语句子时间要素的分析以及时间词语构成形式的研究,采用一种时间表达式的概念,将承载时间信息的短语按照功能的不同分解成若干容易识别,语义单一的“小”的成分,并在此基础上给出基于规则的时间信息抽取、理解及时间语义的计算方法.
徐永东徐志明王晓龙刘远超
基于聚类分析策略的用户偏好挖掘被引量:12
2005年
利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量。实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变化不敏感等优点,可以与Rocchio等算法结合来进行用户兴趣建模。
刘远超王晓龙刘秉权钟彬彬
蛋白质二级结构预测:基于词条的最大熵马尔科夫方法被引量:7
2005年
提出了一种新的蛋白质二级结构预测方法.该方法从氨基酸序列中提取出和自然语言中的“词”类似的与物种相关的蛋白质二级结构词条,这些词条形成了蛋白质二级结构词典,该词典描述了氨基酸序列和蛋白质二级结构之间的关系.预测蛋白质二级结构的过程和自然语言中的分词和词性标注一体化的过程类似.该方法把词条序列看成是马尔科夫链,通过Viterbi算法搜索每个词条被标注为某种二级结构类型的最大概率,其中使用词网格描述分词的结果,使用最大熵马尔科夫模型计算词条的二级结构概率.蛋白质二级结构预测的结果是最优的分词所对应的二级结构类型.在4个物种的蛋白质序列上对这种方法进行测试,并和PHD方法进行比较.试验结果显示,这种方法的Q3准确率比PHD方法高3.9%,SOV准确率比PHD方法高4.6%.结合BLAST搜索的局部相似的序列可以进一步提高预测的准确率.在50个CASP5目标蛋白质序列上进行测试的结果是:Q3准确率为78.9%,SOV准确率为77.1%.基于这种方法建立了一个蛋白质二级结构预测的服务器,可以通过http://www.insun.hit.edu.cn:81/demos/biology/index.html来访问.
董启文王晓龙林磊关毅赵健
关键词:蛋白质二级结构蛋白质序列CASPBLASTPHD
A seqlet-based maximum entropy Markov approach for protein secondary structure prediction
2005年
A novel method for predicting the secondary structures of proteins from amino acid sequence has been presented. The protein secondary structure seqlets that are analogous to the words in natural language have been extracted. These seqlets will capture the relationship be-tween amino acid sequence and the secondary structures of proteins and further form the protein secondary structure dictionary. To be elaborate, the dictionary is organism-specific. Protein sec-ondary structure prediction is formulated as an integrated word segmentation and part of speech tagging problem. The word-lattice is used to represent the results of the word segmentation and the maximum entropy model is used to calculate the probability of a seqlet tagged as a certain secondary structure type. The method is markovian in the seqlets, permitting efficient exact cal-culation of the posterior probability distribution over all possible word segmentations and their tags by viterbi algorithm. The optimal segmentations and their tags are computed as the results of protein secondary structure prediction. The method is applied to predict the secondary struc-tures of proteins of four organisms respectively and compared with the PHD method. The results show that the performance of this method is higher than that of PHD by about 3.9% Q3 accuracy and 4.6% SOV accuracy. Combining with the local similarity protein sequences that are obtained by BLAST can give better prediction. The method is also tested on the 50 CASP5 target proteins with Q3 accuracy 78.9% and SOV accuracy 77.1%. A web server for protein secondary structure prediction has been constructed which is available at http://www.insun.hit.edu.cn:81/demos/bi-ology/index.html.
DONG Qiwen WANG Xiaolong LIN Lei GUAN Yi
关键词:PROTEINSECONDARYSTRUCTUREPROTEINSECONDARYSTRUCTUREMAXIMUMENTROPYMARKOV
基于GA的文本子主题切分中的参数优化研究被引量:3
2005年
如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TextTiling算法进行隐式章节划分的基本原理。同时考虑到算法中人工定义参数可能会对系统的指标产生影响,利用遗传算法对其进行了优化,自动获取的参数值使系统准确率提高了7.1%。实验表明遗传算法是一种非常简单有效的参数优化方法。通过该文方法获取的参数更加适合中文文档的隐式章节划分。
钟彬彬刘远超徐志明
关键词:遗传算法参数优化
共1页<1>
聚类工具0