国家自然科学基金(60873013)
- 作品数:11 被引量:77H指数:6
- 相关作者:张仰森康海燕孙超王俊生施运梅更多>>
- 相关机构:北京信息科技大学北京语言大学北京工业大学更多>>
- 发文基金:国家自然科学基金北京市自然科学基金北京市属高等学校人才强教计划资助项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于《知网》义原搭配的中文文本语义级自动查错研究被引量:12
- 2010年
- 语义级的自动查错一直是汉语文本自动校对技术的难点。针对汉语文本中的语义搭配错误,提出了一种基于《知网》义原搭配的有效的自动查错方法,主要包括语义知识库的构建和自动查错算法。语义知识库的构建分为两步:①根据规则从训练语料中统计出大量的动词与名词之间的二元搭配组合,并利用互信息等因素筛选记录;②利用《知网》对词语义项的义原描述(对于动词抽取其义项中的主义原,名词抽取其义项中的主义原和常见的4个辅助义原),将动词与名词的二元搭配组合转变为义原之间相互制约的多元组合。在语义知识库的基础上设计相应的自动查错算法。实验结果显示,该方法的召回率为35%,精确率为82.3%,具有较好的应用前景。
- 郭充张仰森
- 关键词:互信息知网语义知识库
- 基于隐最大熵原理的汉语词义消歧方法
- 本文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法。在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭配...
- 张仰森黄改娟苏文杰
- 关键词:词义消歧
- 文献传递
- 面向综合语言知识库的知识融合与获取研究被引量:2
- 2010年
- 针对如何填补语料库和电子词典的数据结构之间的差异,如何将语料库与电子词典融合到综合语言知识库系统中,并进行多语言知识资源之间的交叉参考等问题,提出并实现了一种便捷的语言知识查阅方法。该方法以语料库为基础,利用鼠标左键点击完成从电子词典中获取相关知识的操作。通过在北大语料检索工具上的实验,使得用户在浏览语料的同时即可获取电子词典中相应的词汇知识,实现了语料库和词典间便捷、准确的对应和参照,体现了此方法的优势。
- 孙超张仰森
- 关键词:语料库电子词典自然语言处理知识获取方法
- 基于Hadoop的分布式搜索引擎关键技术被引量:16
- 2011年
- 实现了基于Hadoop的分布式搜索引擎,着重讨论了实现分布式搜索引擎涉及的3个关键性技术:索引表的建立、分词的处理和索引前的预处理。通过实验对比了集中式搜索引擎和分布式搜索引擎,结果表明了基于hadoop的分布式搜索引擎在处理数据方面强劲的优势。
- 王俊生施运梅张仰森
- 关键词:HADOOP分布式搜索引擎MAP/REDUCE索引表分词
- 智能化立体仓库入库货位分配的综合优化算法被引量:14
- 2010年
- 智能化立体仓库对现代企业提高仓储利用率和生产效率具有重要作用。介绍了秦皇岛港务集团公司立体仓库管理系统中仓库货位计算机分配的智能化算法,该算法充分考虑了重量均匀分布、就近货位选择、备件品种均匀分布、备件使用率、货位空置时间等因素,根据整个仓库的当前状态计算入库货位,为入库货位的选择提供辅助决策。实际项目运行表明,所提的综合货位优化分配算法是有效的,对提高仓库的安全性、入库工作效率等具有非常重要的意义。
- 张仰森刘安宇
- 汉语统计语言模型训练样本容量的定量化度量被引量:1
- 2009年
- 统计语言模型的参数训练是语言建模的关键,选择多大的训练样本就能够达到建模的参数估计误差要求,是语言建模理论关心的问题之一。应用数理统计理论对汉语统计语言模型的训练语料样本容量进行了定量化描述,给出了汉语n-gram模型训练样本容量下界的估算方法及量化估算公式,可根据模型参数估计的误差要求计算出模型训练所需的样本容量。
- 张仰森
- 词义标注一致性检验系统的设计与实现被引量:3
- 2010年
- 词义消歧是自然语言处理领域的一个重要研究课题。词义标注的一致性将直接影响语料库的建设质量,进而直接或间接影响到其相关的应用领域。由于语言本身的复杂性与发展性以及算法设计的难点和缺陷,目前各种词义标注的算法与模型还不能百分之百正确地标注词义,即不能保证词义消歧的正确性与一致性。而人工校验在时间、人力方面的投入是个难题。该文在对《人民日报》语料、语句相似度算法和语义资源《知网》研究的基础上,提出了对《人民日报》语料词义标注进行一致性检验的方法。实验结果表明,此方法是有效的。
- 乔剑敏张仰森
- 关键词:计算机应用中文信息处理词义标注《知网》语料语句相似度
- 基于问句表征的web智能问答系统被引量:7
- 2011年
- 问答系统现已成为自然语言处理领域和信息检索领域的一个重要分支,问句表征是问答系统的重要组成部分。针对问句分析的不足,采用改进的贝叶斯和疑问词相结合的方法,对问句进行分类,提取问句的类型;在初次查询的基础上,根据问句的类别进行关键词扩展,同时,加入新词识别的功能,即提出一种问句的表征方法,对问句进行充分、全面地理解;基于以上算法,在J2EE环境下开发出一个问句表征的web智能问答系统。实验结果表明,文中的问句表征方法能有效改善系统的性能。
- 康海燕李飞娟苏文杰
- 关键词:问答系统自然语言处理
- 基于广义话题理论的话题句识别被引量:12
- 2012年
- 汉语标点句句首话题缺失是机器翻译、信息抽取准确率不高的原因之一。该文从广义话题理论出发,根据汉语话题结构的特点,提出标点句的话题句识别研究方案,包括两个阶段性任务:单个标点句的话题句识别和序列标点句的话题句序列构建。识别出标点句的话题句也就找到了标点句句首缺失的话题。该文解决单个标点句的话题句识别任务,主要采用语义泛化和编辑距离两种手段。实验中开放测试的准确率比基线高出12.51个百分点。该结果说明,运用广义话题理论进行单个标点句的话题句识别可产生明显的效果。
- 蒋玉茹宋柔
- 利用浅层句法分析提取特征的词义消歧被引量:1
- 2010年
- 针对如何从文本中提取高质量消歧特征的问题,提出了基于浅层句法分析的消歧特征提取算法,建立了以语块分析识别为核心的特征提取模型。该模型通过对实词类型语块识别、分析中心词语词性和虚词类型语块分析,得到多义词的消歧特征。以北京大学计算语言研究所的现代汉语基本标注语料库为基础,选取了44个多义词,通过使用最大熵消歧模型进行训练和预测实验,准确率达到了78.71%。
- 孙超张仰森
- 关键词:词义消歧浅层句法分析语块特征提取最大熵模型