黑龙江省自然科学基金(E200635)
- 作品数:4 被引量:19H指数:2
- 相关作者:刘秉权郑逢强林磊孙承杰李鹏更多>>
- 相关机构:哈尔滨工业大学黑龙江工程学院更多>>
- 发文基金:国家自然科学基金黑龙江省自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 双阈值的特定英语音频句子边界检测被引量:2
- 2010年
- 为了提高英语音频句子切分的效果,提出了基于双阈值的句子边界检测方法.该方法针对VOA、BBC等特别适合英语学习者的音频所具有的波形规范、环境噪声小、速率通常比较稳定等特点,利用静音能量阈值和静音时延阈值来检测音频句子的边界,并辅以对照文本信息进行校正.针对VOA慢速英语的实验结果表明:单纯使用双阈值方法,音频切分的召回率超过96%,精确率超过94%;利用对照文本校正后,可进一步提高精确率.
- 刘秉权徐帅李相前
- 关键词:双阈值
- Trie树和单字倒排相结合的汉英词典查找机制被引量:2
- 2008年
- 在对词典的查找算法作了回顾基础上,根据跨语言信息检索系统的要求,提出了一种词典查找的新机制,与其他查找算法的不同之处在于本方法支持模糊查找.查找机制结合Trie树和单字倒排的方法,既实现了查找的高效率又实现了模糊查找的算法,实验证明这种方法能够满足实际系统的需要.
- 朱文强刘秉权葛冬梅王喻红
- 关键词:跨语言信息检索TRIE树倒排索引
- 基于结构树解析的网页正文抽取方法
- 本文采用一种基于结构树解析的方法来实现中文网页正文的抽取。这种方法利用了中文网页中内容信息结构相似和分布聚集的特性,实现简单,通用性好,可以克服包装器方法需要针对特定数据源的缺点。该方法在分析网页时是利用DOM(Docu...
- 刘秉权王喻红葛冬梅李佳
- 关键词:计算机应用DOM包装器
- 文献传递
- 《知网》在命名实体识别中的应用研究被引量:11
- 2008年
- 命名实体识别是自然语言处理领域的一项基础研究,它对于语言的深层处理有重要意义。该文以最大熵模型为基础来进行名实体识别,提出了基于《知网》的两种改进策略来增强模型的泛化性能。第一种策略是将《知网》中词的义原作为特征加入到最大熵模型中;第二种策略是利用《知网》来计算最大熵模型中词特征之间的概念相似度。在北京大学《人民日报》语料上的实验结果表明第一种策略可以有效地提高名实体识别的性能,第二种策略的改进效果不明显。
- 郑逢强林磊刘秉权孙承杰
- 关键词:计算机应用中文信息处理概念相似度《知网》最大熵模型
- 基于统计的中文领域术语自动抽取方法的比较研究
- 基于统计的领域术语抽取方法近年来得到了广泛的研究。然而领域术语抽取方法与领域相关,并且评价需要大量的人力资源,因此对这些方法进行比较存在着一定的困难。因此本文采用基于词典的客观评价方法与基于人工的主观评价方法,使用准确率...
- 宁海燕刘秉权张德园刘远超王晓龙
- 关键词:TFIDFSVM
- 文献传递
- 一种基于无监督学习的词变体识别方法被引量:4
- 2008年
- 本文提出了一种生物医药领域词变体的识别策略。首先使用最小编辑距离算法和字符匹配算法从语料中分别获得特定目标词的形态学变体和缩略词,并将其作为候选词变体。本文采用系统相似模型获得每个词变体上下文语义的量化评价。本文的方法不需要任何语言学知识和精细加工的语料资源,实验表明,该方法可以在保证准确率的同时显著地提高词变体识别的召回率。
- 王宝勋王晓龙刘秉权李鹏
- 关键词:计算机应用中文信息处理缩略词
- 基于内容的服装图像检索技术研究
- 近年基于内容的图像检索技术是一个深受关注的研究热点,但是通用意义的基于内容的图像检索技术并未取得很好的效果。本文将基于内容的图像检索技术应用于电子购物领域,用于支持用户检索服装图像。提出基于分割算法的图像背景去除技术,用...
- 卢兴敬刘秉权张德园
- 关键词:颜色直方图
- 文献传递