张先飞 作品数:15 被引量:62 H指数:5 供职机构: 解放军信息工程大学信息工程学院 更多>> 发文基金: 国家高技术研究发展计划 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于向量相似度修正策略的命名实体关联分析 2008年 关联分析是数据挖掘技术中的一种重要方法,代表性算法有FP-growth算法和MAXFP-Miner算法。命名实体包含了文本的主要内容,蕴含了丰富的知识模式。针对命名实体的特点,提出一种基于向量相似度比较的关联规则修正策略,将此修正策略应用于MAXFP-Miner算法中,得到一种改进的MAXFP-Miner算法;利用该算法对命名实体之间的内在联系进行分析,从中发现有意义的知识模式。实验结果与性能比较表明,改进的MAXFP-Miner算法是有效的,优于传统的FP-growth算法和MAXFP-Miner算法。 刘路 李弼程 张先飞关键词:知识发现 基于单实体语言模型的实体关系发现和描述 被引量:1 2008年 传统中文实体关系抽取方法大都采用基于共现实体对的上下文模型,这种模型会遗失很多潜在的实体关系,并且无法对相似的实体关系给出合理的描述信息。针对这一局限性,文章提出一种基于单实体的上下文语言模型。通过对文本集中的所有实体建立上下文语言模型,来计算实体之间的相似度以及上下文词汇的贡献度得分,从而发现相似度较高的实体对,并获得实体关系的描述信息。实验证明,与传统方法相比,本文方法能够发现更丰富的实体关系,描述信息也更加准确。 刘路 李弼程 张先飞 孙显著关键词:语言模型 基于条件随机场与自定义规则的时间表达式识别 被引量:3 2011年 本文致力于信息抽取中时间表达式的识别与提取研究。首先针对基于规则方法时间识别的缺点,将统计序列标注模型——条件随机场应用于时间识别中,充分利用时间表达式的内部和外部特征进行时间识别,提高了时间识别的准确率。然后通过对识别结果进行分析,自定义规则对识别错误结果进行后处理,进一步提高时间识别的召回率,弥补了机器学习模型获取知识不够全面而导致的召回率偏低的问题。实验结果表明,本文方法开放测试的准确率、召回率和F-值分别到达了91.65%、88.13%和89.85%,较传统方法均有所提高,是一种有效的时间表达式识别方法。 许旭阳 李弼程 张先飞 席耀一关键词:条件随机场 信息抽取 自动内容抽取中的中文事件标注 被引量:2 2011年 事件检测与描述(Event Detection and Characterization,EDC)自2005年作为自动内容抽取(Automatic ContentExtraction,ACE)评测的一个重要子任务出现以来,中文事件的标注、检测与描述越来越成为研究热点。本文就自动内容抽取中的中文事件标注进行详细、系统地研究,主要包括:在ACE会议定义中文事件相关概念的基础上,给出事件标注中事件的可标注内容,包括事件范围及事件触发词等;根据生活中的事件分类在人工事件标注中对EDC的事件进行类别划分及其子类的详细区分,以降低事件检测的复杂度;对每个事件类别(包括子类别)中构成事件的元素进行研究,综合事件类别及其元素信息完成中文事件的标注。本文的研究成果在中文文本信息抽取、自动摘要及主题检测与追踪中得到了很好的应用。 张先飞 郭志刚 李弼程 孙显著基于广度优先的序列模式挖掘算法 2005年 序列模式挖掘的典型算法-GSP算法及其之后的许多相关算法的重点都是放在寻找所有的序列模式上面。CloSpan算法首先提出搜索封闭集合的思想。封闭集合比全集合更精简有效,并且和全集合有着相同的表达能力。文章的ERIC算法同样用于搜索封闭集合。然而不同于之前算法多采用深度优先的策略,ERIC算法是基于广度优先的。它利用列表来保存序列的位置数据,通过利用序列的有序性,以及基于后向超模式与等位置数据的两个修剪技巧来提高算法的搜索效率。为了确保储存最终结果列表的简洁,ERIC算法对一些特殊情况进行了分析。从最终的试验结果可以看出,ERIC算法在较小支持度的情况下对中大型数据库有很好的搜索效率。 张先飞 李弼程关键词:广度优先 基于正反例训练的SVM命名实体关系抽取 被引量:6 2008年 根据中文命名实体关系抽取的特点,从中文的形态学、语法及语义等几个方面选取特征并构建特征向量,然后将符合特定实体关系模板的候选命名实体对抽取出来并分为正反例。利用正反例样本对支持向量机(SVM)抽取器进行训练,以此来判断候选命名实体对的关系类型。实验证明,本方法能够有效提高中文命名实体关系抽取的准确率。 刘路 李弼程 张先飞关键词:SVM算法 基于数据融合的多特征遥感图像分类 被引量:11 2006年 以多光谱图像为研究对象,综合利用遥感图像的光谱、纹理和数学变换特征,提出了一种基于数据融合的多特征遥感地物分类方法。该方法针对不同的特征分别构造了神经网络分类器和K-均值聚类器,并对前者利用A daboost算法进行提升,然后再将各特征的分类结果利用证据理论合成公式融合得到最终结果。实验结果表明,该方法的分类效果要优于单特征的分类结果。 刘安斐 李弼程 张先飞关键词:图像分类 ADABOOST算法 证据理论 事件检测与描述中的时间信息提取 被引量:2 2011年 时间信息在事件检测与描述中起着决定性作用,对自动内容抽取中的事件检测进行研究,就应该首先对时间信息进行详细、系统地研究。本文致力于事件检测中的时间信息研究,对文本中有明显标记和无明显标记的时间进行区分;在明确要提取时间具体内容的基础上对时间进行详细分类并阐明其含义,其中包括精确时间、模糊时间、修饰类时间、时间集及其他不确定时间等;在此基础上对涉及时间信息的名词修饰语、时间间隔、嵌入式时间表达和时间定位词等时间范围信息进行研究;最后引入时间戳的概念,并对时间戳的类型及涉及时间戳与事件的关系进行详细研究,从而引出如何在时间戳研究的基础上,更好地进行事件检测与描述。本文的研究成果可以很好地应用于自动内容抽取、自动问答系统、话题追踪结果及自动文摘系统中。 张先飞 李弼程 刘嵩 孙显著LS-SVM:一种有效的新闻主题追踪方法 被引量:5 2008年 新闻主题追踪是对主体所感兴趣的新闻主题的发展趋势进行动态追踪,其优势在于对所感兴趣的主题基于文本模型及理解的动态追踪,因此更多地涉及文本表示与语义理解。LS-SVM首先将文本利用LSI(隐含语义分析)进行分析,完成对文本基于语义的特征降维及文本表示;然后将隐含语义文本表示的结果输出给SVM进行主题追踪,从而实现从语义层次上的新闻主题追踪。实验结果表明,与传统的主题追踪相比较,该方法能够有效提高主题追踪的性能,减少追踪的错报率和漏报率。 潘渊 李弼程 张先飞关键词:隐含语义分析 支持向量机 奇异值分解 基于触发词指导的自相似度聚类事件检测 被引量:12 2010年 传统方法将事件检测任务看作分类问题,将词作为实例来训练分类器,容易导致训练正反例不平衡,同时,在语料库规模较小时存在一定的数据稀疏问题。首先避开以词为实例进行分类,在事件类别判断上引入聚类思想,在事件触发词的指导下,采用自相似度对K-means聚类算法中的K值进行自收敛,优化了聚类算法。然后结合命名实体及其位置信息,对事件类别进行详细定位,很好地解决了传统事件检测对类别模板的依赖性,所检测的事件在文本摘要、检索和主题检测与追踪上得到了很好的应用。 张先飞 郭志刚 刘嵩 程磊 田雨暄关键词:聚类