中国科学院计算机语言信息工程研究中心 作品数:105 被引量:1,160 H指数:17 相关作者: 陈肇雄 张孝飞 董振东 王建德 郝长伶 更多>> 相关机构: 南京理工大学计算机科学与技术学院 南京理工大学计算机科学与技术学院计算机系统理论与技术系 中国科学技术大学计算机科学与技术学院 更多>> 发文基金: 国家自然科学基金 国家高技术研究发展计划 国家杰出青年科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 电子电信 文化科学 更多>>
基于结构分析与计算的问答系统问题分类 问题分类是问答系统技术处理的基础与核心,它决定答案抽取的范围和方法,进而影响整个系统的性能.通过对比分析问题分类与文本分类的异同以及问句内部结构与问题类型之间的关系,提出了一种新的基于贝叶斯理论的问题分类计算模型.通过对... 张亮 陈肇雄 黄河燕关键词:问答系统 贝叶斯模型 文献传递 基于语义相似度并运用语言学知识进行双语语句词对齐 被引量:8 2002年 This paper claries the definition of alignment from the viewpoint of linguistic similarity. Many alignment algorithms have been proposed with very high precision. But the languages belong to occidental family. We propose a new method for alignment between languages that do not belong to the same language family. On the contrary to most of the previously proposed methods that rely heavily on statistics, our method attempts to use linguistic knowledge to overcome the problems of statistical model. Experimental results confirm that the algorithm can align over 85 % of word pairs while maintaining a comparably high precision rate, even when a small corpus is used in training. 晋薇 黄河燕 夏云庆关键词:机器翻译 语言学知识 语义相似度 计算机 高速信息网中关键基础问题 周炯槃 冯重熙 顾冠群 樊昌信 雷振明 吴伟陵 林金桐 李承恕 廖建新 韦岗 晏蒲柳 黄河燕 该课题为国家自然科学基金重大项目(69896240)。项目由8个单位共同承担,分别完成9个子课题,其任务是在中国自己研制的ATM科学实验网的网络平台基础上进一步扩大、完善网络平台功能、突破网络应用的若干瓶颈、研究并解决高...关键词:关键词:高速信息网 移动通信 网络平台 词性标注中生词处理算法研究 被引量:22 2003年 词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有很大的难度。文章基于隐马尔科夫模型(HMM),通过将生词的词性标注问题转化为求词汇发射概率,在词性标注中提出了一种生词处理的新方法。该方法除了用到一个标注好的单语语料库外,没使用任何其他资源(比如语法词典、语法规则等),封闭测试正确率达97%左右,开放测试正确率也达95%左右,基本上达到了实用的程度。同时还给出了与其他同样基于HMM的词性标注方法的测试比较结果,结果表明本文方法的标注正确率有较大的提高。 张孝飞 陈肇雄 黄河燕 蔡智关键词:中文信息处理 自然语言理解 隐马尔科夫模型 语料库 基于ontology的智能检索技术研究 被引量:5 2005年 介绍ontology的概念模型、明确性、形式化、共享性等属性特征,阐述面向信息检索的ontology的层次结构(即顶层on- tology、领域ontology、任务ontology和应用ontology)及其相互关系,研究分析基于ontology的智能信息检索系统的运行机制和系统体系的构建,并以实例说明ontology在深层次检索中的优势。 张亮 陈肇雄 黄河燕关键词:ONTOLOGY 智能信息检索 语义 图像编码的多分辨率分类矢量量化算法 被引量:5 1999年 本文结合小波多级变换后不同方向、不同尺度的系数相关性,提出了一种多分辨率的分类矢量量化方案,对由不同分辨率水平、不同方向的小波系数组成的矢量块进行分类量化编码,并设计了相应的性能良好的分类器,给出了不同条件下的实验结果和数据,从而证明了该编码方案不但提高了图像的质量,同时计算复杂度也有一定的降低. 胡春玲 马常楼 沈昌祥关键词:小波变换 多分辨率 图像编码 一种基于HMM的词性标注算法(英文) 词性兼类是自然语言理解必须解决的一类非常重要的歧义现象,尤其是对生词的词性歧义处理有着很大的难度。文章通过将生词的词性标注问题转化为求解词汇发射概率,提出了一种基于隐马尔科夫模型 (HMM)的词性标注新方法,较好地解决了... 张孝飞 张道秧 黄河燕关键词:自然语言处理 词性标注 语料库 文献传递 基于Web服务的机助翻译系统体系结构研究 网络技术的进步为数据密集或计算密集型的应用提供了大规模、分布式的处理能力。考虑到语言工程所必需的大量数据以及分析这些数据所需的高强度计算,结合新一代网络技术的软件体系结构研究将在语言工程领域发挥日益重要的作用。本文对基于... 冯冲 陈肇雄 黄河燕 关真珍关键词:WEB服务 软件体系结构 文献传递 应用于长频繁集挖掘的基于变动邻域搜索的遗传算法设计 2006年 提出了一种基于变动邻域搜索的长频繁集挖掘方法(VNS-GA),利用遗传算法的高效搜索性能快速挖掘最大频繁集。在遗传算法的适应度函数设计中,综合考虑项集支持度、长度以及项集支持度和邻域中心支持度的距离,算法一次运行可找出邻域内的最大频繁集,改变邻域中心即可找到我们需要的最大频繁集。算法有效性通过实验得到了验证,且实验表明该算法的时间复杂度与支持度阈值大小无关,因此对于长模式挖掘问题具有很高的效率。 章舜仲 王树梅 黄河燕 陈肇雄关键词:计算机应用 中文信息处理 频繁集 搜索空间 邻域搜索 多语机器翻译及其系列应用系统研究进展 多语机器翻译及其系列应用系统是我们设计并实现的一个多语种、多专业机器翻译核心以及面向不同软硬件平台的系列应用解决方案.本文,我们给出了多语机器翻译及其系列应用系统的设计考虑、总体结构设计、关键技术问题及其主要技术特点. 陈肇雄 黄河燕文献传递