公共文化服务平台

共 6 条记录，以下是 1-6

全选清除导出

排序方式：

一种基于文章主题和内容的自动摘要方法被引量：20: 2004年; 文章介绍了一种新的使用自然语言处理技术的自动系统。通过融合基于内容的方法和基于主题的方法,将主题与内容相结合,生成具有良好连贯性和流畅性的。该方法首先对主题词进行分析,动态地处理具有抽象标题和具体标题的文档;然后采用词汇、语法、语义分析等自然语言处理技术,对文章的文本内容进行深入分析;再根据线性加权融合两种分析得到的结果,生成;最后采用指代消解技术使生成的更连贯流畅。与仅基于内容的自动文摘系统相比较,评测结果显示,该系统生成的质量有明显提高。; 陈燕敏王晓龙刘远超楼喜中; 关键词：自动文摘自然语言处理主题分析

中文文本时间信息获取及语义计算被引量：12: 2007年; 为了解决中文文本中时间信息的形式表达、抽取及时间语义计算等一系列问题,提出了一种可以适用于多种自然语言处理任务的时间信息处理系统,通过对汉语句子时间要素的分析以及时间词语构成形式的研究,采用一种时间表达式的概念,将承载时间信息的短语按照功能的不同分解成若干容易识别,语义单一的“小”的成分,并在此基础上给出基于规则的时间信息抽取、理解及时间语义的计算方法.; 徐永东徐志明王晓龙刘远超

基于聚类分析策略的用户偏好挖掘被引量：12: 2005年; 利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量。实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变化不敏感等优点,可以与Rocchio等算法结合来进行用户兴趣建模。; 刘远超王晓龙刘秉权钟彬彬

蛋白质二级结构预测:基于词条的最大熵马尔科夫方法被引量：7: 2005年; 提出了一种新的蛋白质二级结构预测方法.该方法从氨基酸序列中提取出和自然语言中的“词”类似的与物种相关的蛋白质二级结构词条,这些词条形成了蛋白质二级结构词典,该词典描述了氨基酸序列和蛋白质二级结构之间的关系.预测蛋白质二级结构的过程和自然语言中的分词和词性标注一体化的过程类似.该方法把词条序列看成是马尔科夫链,通过Viterbi算法搜索每个词条被标注为某种二级结构类型的最大概率,其中使用词网格描述分词的结果,使用最大熵马尔科夫模型计算词条的二级结构概率.蛋白质二级结构预测的结果是最优的分词所对应的二级结构类型.在4个物种的蛋白质序列上对这种方法进行测试,并和PHD方法进行比较.试验结果显示,这种方法的Q3准确率比PHD方法高3.9%,SOV准确率比PHD方法高4.6%.结合BLAST搜索的局部相似的序列可以进一步提高预测的准确率.在50个CASP5目标蛋白质序列上进行测试的结果是:Q3准确率为78.9%,SOV准确率为77.1%.基于这种方法建立了一个蛋白质二级结构预测的服务器,可以通过http://www.insun.hit.edu.cn:81/demos/biology/index.html来访问.; 董启文王晓龙林磊关毅赵健; 关键词：蛋白质二级结构蛋白质序列 CASP BLAST PHD

A seqlet-based maximum entropy Markov approach for protein secondary structure prediction: 2005年; A novel method for predicting the secondary structures of proteins from amino acid sequence has been presented. The protein secondary structure seqlets that are analogous to the words in natural language have been extracted. These seqlets will capture the relationship be-tween amino acid sequence and the secondary structures of proteins and further form the protein secondary structure dictionary. To be elaborate, the dictionary is organism-specific. Protein sec-ondary structure prediction is formulated as an integrated word segmentation and part of speech tagging problem. The word-lattice is used to represent the results of the word segmentation and the maximum entropy model is used to calculate the probability of a seqlet tagged as a certain secondary structure type. The method is markovian in the seqlets, permitting efficient exact cal-culation of the posterior probability distribution over all possible word segmentations and their tags by viterbi algorithm. The optimal segmentations and their tags are computed as the results of protein secondary structure prediction. The method is applied to predict the secondary struc-tures of proteins of four organisms respectively and compared with the PHD method. The results show that the performance of this method is higher than that of PHD by about 3.9% Q3 accuracy and 4.6% SOV accuracy. Combining with the local similarity protein sequences that are obtained by BLAST can give better prediction. The method is also tested on the 50 CASP5 target proteins with Q3 accuracy 78.9% and SOV accuracy 77.1%. A web server for protein secondary structure prediction has been constructed which is available at http://www.insun.hit.edu.cn:81/demos/bi-ology/index.html.; DONG Qiwen WANG Xiaolong LIN Lei GUAN Yi; 关键词：PROTEIN SECONDARY STRUCTURE PROTEIN SECONDARY STRUCTURE MAXIMUM ENTROPY MARKOV

基于GA的文本子主题切分中的参数优化研究被引量：3: 2005年; 如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TextTiling算法进行隐式章节划分的基本原理。同时考虑到算法中人工定义参数可能会对系统的指标产生影响,利用遗传算法对其进行了优化,自动获取的参数值使系统准确率提高了7.1%。实验表明遗传算法是一种非常简单有效的参数优化方法。通过该文方法获取的参数更加适合中文文档的隐式章节划分。; 钟彬彬刘远超徐志明; 关键词：遗传算法参数优化

全选清除导出

共1页<1>

国家自然科学基金(60373100)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

国家自然科学基金(60373100)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈