国家高技术研究发展计划(2002AA117010)
- 作品数:6 被引量:107H指数:5
- 相关作者:史晓东曾华琳向晓雯胡卫明谢丹更多>>
- 相关机构:厦门大学中国科学院自动化研究所北京大学更多>>
- 发文基金:国家高技术研究发展计划国家自然科学基金国家重点基础研究发展计划更多>>
- 相关领域:自动化与计算机技术建筑科学更多>>
- 语料库粗粒度词义标注
- 本文介绍了一个粗粒度词义标注语料库的构建与实现,依据《现代汉语语法信息词典》中的同形信息,在人民日报基本标注语料库中标注词义编码。词义标注校对辅助软件促进了词义标注工作的进展,标注规范的制定有助于保证语料库词义标注的一致...
- 吴云芳温珍珊段慧明俞士汶
- 关键词:词义词义标注词义消歧语料库
- 文献传递
- 词典匹配和串频统计相结合在自动主题分析中的应用
- 当前主题分析主要采用基于词表的自动抽词技术,这种方法的局限性在于无法处理知识库中未登录的关键词。因此本文提出了在专家知识库的词典匹配基础上,结合词的串频统计技术,进行自动主题分析,获取文档的关键词候选项。实验证明,该方法...
- 李素建李芸纪鹭宁徐睿峰
- 关键词:串频统计主题分析关键词自动标引
- 文献传递
- 对搜索引擎中倒排索引更新策略的研究和改进
- 介绍了使用界标和增加/删除网页文档两种当前比较典型的更新策略,并对它们进行了分析比较,对使用界标和插人/删除文档这两种更新策略进行改进;用实验对改进策略进行了验证比较;在文章最后,给出相应的结论和应用前景.
- 李栋史晓东
- 关键词:搜索引擎倒排索引
- 基于上下文信息提取的概率分词算法
- 汉语分词在汉语文本处理过程中是一个十分特殊而重要的组成部分。传统的基于词典的分词算法存在着很大的缺陷,它们无法对未登陆词进行很好的处理。而基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理效果不尽人意。...
- 曾华琳史晓东李堂秋
- 关键词:中文分词N元模型上下文信息
- 文献传递
- 一种基于声调规范模型的声调变换方法被引量:4
- 2005年
- 该文利用固定点频率分析提取基音频率(F0),建立归一化线性多项式声调模型。参考男声、女声基音频率的分布和五度标调法,提出了一套汉语声调的规范模型,在此规范模型的基础上,实现了汉语语音声调变换。实际测听表明,经此模型变换的声音达到预期效果。
- 薛健蔡莲红
- 轨迹分布模式学习的层次自组织神经网络方法被引量:22
- 2003年
- 提出一个层次自组织神经网络模型 ,并将其应用于基于事件识别的轨迹分布模式学习中 .该文利用神经元的侧向连接将神经元连成若干条线 ,每条线对应一个“内部网” .对应于层次神经网络模型 ,建立了两个邻域 ,即神经元邻域和“内部网”邻域 ,两个邻域内的神经元都要不同程度地改变权值 ,从而完成运动轨迹分布模式的学习 .还给出了利用轨迹分布模式检测出局部可能的异常现象、检测整个运动轨迹所表示的事件是否为异常事件和目标行为预测的方法 .
- 胡卫明谢丹谭铁牛沈俊
- 关键词:计算机视觉
- 一种支持高效检索的实时更新倒排索引策略被引量:9
- 2006年
- 最近的研究使得搜索引擎中搜取的网页文档与万维网的变化越来越同步。为使用户通过搜索引擎获取网络上的最新信息,必须加快倒排索引的更新。本文介绍了使用界标和增加,删除网页文档两种典型的倒排索引更新策略,并分析了它们的优缺点,提出了一种支持高效检索的实时更新倒排索引策略。这种策略综合了减少更新操作、加快实时更新和缩短用户查询响应时间等方面的优点,较好地适应了当前网络内容变化的特点。最后通过实验对这种策略进行了验证。
- 李栋史晓东
- 关键词:搜索引擎倒排索引
- 一种基于提取上下文信息的分词算法被引量:16
- 2005年
- 汉语分词在汉语文本处理过程中是一个特殊而重要的组成部分。传统的基于词典的分词算法存在很大的缺陷,无法对未登录词进行很好的处理。基于概率的算法只考虑了训练集语料的概率模型,对于不同领域的文本的处理不尽如人意。文章提出一种基于上下文信息提取的概率分词算法,能够将切分文本的上下文信息加入到分词概率模型中,以指导文本的切分。这种切分算法结合经典n元模型以及EM算法,在封闭和开放测试环境中分别取得了比较好的效果。
- 曾华琳李堂秋史晓东
- 关键词:中文分词N元模型上下文信息
- 一种新的基于规则的多音字自动注音方法
- 本文统计了大量正确标音的语料,结果表明220个多音字的出现频度占总频度的99%以上。本文针对这220个多音字,提出了一种新的基于规则的多音字自动注音的方法。该方法首先对语句中的多音字进行预分类,然后基于8项特征提取规则,...
- 郑敏蔡莲红
- 关键词:字音转换多音字韵律短语特征提取
- 文献传递
- 一个统计与规则相结合的中文命名实体识别系统被引量:44
- 2005年
- 介绍了一个中文命名实体识别系统,该系统采用了统计与规则相结合的方法。整个识别过程主要分成两个步骤,首先使用隐马尔可夫模型进行词性标注,然后利用具有优先级别的匹配规则对第一步的结果进行修正和转换。同时,系统还对上下文相关的命名实体识别作了初步的尝试。在863组织的命名实体识别评测中,系统的准确率、召回率和F值分别达到了81.93%,78.20%,80.02%。
- 向晓雯史晓东曾华琳
- 关键词:隐马尔可夫模型