吴英杰 作品数:26 被引量:69 H指数:6 供职机构: 中国医学科学院北京协和医学院医学信息研究所 更多>> 发文基金: 中央级公益性科研院所基本科研业务费专项 国家科技支撑计划 更多>> 相关领域: 文化科学 自动化与计算机技术 医药卫生 语言文字 更多>>
基于K-means的机构归一化研究 被引量:10 2013年 分析k-means算法的核心思想和基本步骤,借鉴现有基于频繁词集的文本聚类初始中心确定方法,提出一种面向大规模机构名称归一化处理应用的机构聚类方法,详细阐述机构聚类中心的生成、相似度算法的选择以及迭代次数问题,其实验和应用效果表现良好。 孙海霞 李军莲 吴英杰关键词:K-MEANS 相似度计算 中国生物医学文献服务系统(SinoMed)的研制思路及功能概述 被引量:5 2011年 在概述新版SinoMed研制思路的基础上,重点介绍其系统功能,包括检索功能、检索结果处理、个性化服务和原文获取4个方面。 李军莲 夏光辉 孙海霞 张宁 吴英杰CBM数据库作者机构非规范著录数据自动检测研究 被引量:2 2011年 对CBM数据库中作者机构非规范著录情况进行分析、归纳总结,依据已有的作者机构著录标准,开发非规范著录数据自动检测程序。结果表明该程序在显著提高工作效率的同时,保证较高的检测准确性,有助于提高CBM机构数据的标准化水平。 吴英杰 孙海霞关键词:著录标准 生物医学开放获取期刊导航系统的设计与实现 被引量:4 2009年 介绍生物医学开放获取期刊现状,从数据采集机制、元数据结构设计、服务模式设计、数据管理平台规划等方面,论述中国医学科学院医学信息研究所外文生物医学开放获取期刊导航系统的建设思路与实践。 钱庆 李军莲 夏光辉 高星 吴英杰 孙海霞 李雯雯关键词:生物医学 基于BiLSTM-CRF的中文生物医学开放式概念关系抽取 被引量:4 2018年 目的:利用深度学习方法自动抽取中文生物医学文本中的开放式概念关系,以增强生物医学文本理解及医学知识网络构建。方法:使用BiLSTM-CRF模型从中文生物医学文献数据中抽取以句子上下文短语描述的开放式概念关系,并与基于条件随机场(Conditional Random Fields,CRF)和基于长短时记忆网络(Long Short-Term Memory,LSTM)的方法进行对比分析。结果:基于BiLSTM-CRF的中文生物医学开放式概念关系抽取方法取得F1值为0.5221,显著高于基于CRF模型的方法(F1值为0.2353)和基于LSTM模型的方法(F1值为0.3355)。结论:与单独使用CRF模型或LSTM模型的方法相比,基于BiLSTM-CRF的开放式概念关系抽取方法具有更好的鲁棒性和泛化性,对于生物医学文本理解、医学知识网络构建等研究具有借鉴意义。 王序文 李姣 吴英杰 李军莲关键词:条件随机场 中文生物医学关键词-主题词映射表计算机辅助构建与维护机制研究 被引量:3 2014年 将自然语言应用到信息组织、标引、检索和分析所需的各种词表中,实现自然语言与受控语言间的互操作,是新一代知识组织系统构建模式。文章围绕“关键词识别与扩充、关键词-主题词映射关系构建、关键词-主题词映射关系更新”3个方面,介绍了中文生物医学关键词-主题词映射表的计算机辅助构建与维护机制,以及系统的功能架构。 孙海霞 吴英杰 李丹亚 李军莲关键词:生物医学 知识组织系统 科技文献数据库中机构名称匹配策略研究 被引量:12 2018年 【目的】规范科技文献数据库中机构名称存储与管理,设计并实现机构名称匹配策略。【方法】引入地区、类别和命名特征,构建3类7组匹配判定规则,设计4组规则与编辑距离混合的匹配策略,基于中文生物医学文献数据库2006年–2011年"作者单位"数据进行实现与评估。【结果】在600余万条"作者单位"数据集上,对高等院校、医院与科研院所三类机构进行匹配实现,结果表明综合考虑机构地区和命名特征规则的混合匹配策略表现最佳,准确率均在80%以上,召回率达64.82%,F值达71.66%。【局限】辅助词典和规则构建主要依赖人工经验,覆盖面不全;机构名称识别存在错误,对匹配结果产生影响;提出的匹配策略无法有效解决机构名称形态差异较大的规范问题。【结论】本研究提出一种基于规则和编辑距离的机构名称匹配策略,能够提高科研文献数据库建设的规范性。 孙海霞 王蕾 吴英杰 华薇娜 李军莲关键词:信息检索 相似度计算 文献数据库 机构知识库建设实践研究 被引量:8 2018年 对中国医学科学院/北京协和医学院机构知识库建设理念及阶段性成果进行介绍,通过开展机构知识库建设实践,完成具有医学领域特色的机构成果库以及满足基本功能需求的机构知识门户搭建,就相关支撑机制及未来工作进行讨论。 王序文 李军莲 黄利辉 黄利辉 夏光辉 夏光辉关键词:机构知识库 CBM学术分析功能的设计与实现 期刊文献作为学术科研成果的主要体现形式,多年来一直是学术分析与评价的重要方面.本文探讨了基于《中国生物医学文献数据库》(CBM)全新'学术分析'功能的设计与实现,从功能结构设计、功能特色分析、数据组织与处理设计三方面详细... 李军莲 孙海霞 夏光辉 吴英杰 陈颖 赵胜钢 李赞梅关键词:中国生物医学文献数据库 模块化设计 数据处理 文献传递 基于混合策略的中文生物医学领域未登录词识别研究 被引量:2 2013年 简述中文未登录词识别研究现状,结合中文生物医学领域词长分布和构词特点,提出以N-gram为基础,综合利用领域词典、语料和规则的中文生物医学领域未登录词识别方案,并以中国生物医学文献数据库中药学期刊数据作为样本集进行实验,效果表现良好。 孙海霞 李军莲 吴英杰 吴夙慧关键词:未登录词 N-GRAM 生物医学