叶文豪 作品数:8 被引量:84 H指数:6 供职机构: 南京农业大学信息科学技术学院 更多>> 发文基金: 国家自然科学基金 国家社会科学基金 江苏省社会科学基金 更多>> 相关领域: 文化科学 自动化与计算机技术 政治法律 更多>>
基于国家社会科学基金的宗教学成果及研究热点分析 [目的/意义]本文基于1991-2015年的国家社会科学基金宗教学项目及收录在CSSCI数据库(1998-2015)的宗教学国家社科基金项目所资助的论文,对宗教学国家社科基金立项与成果信息进行了统计分析。[方法/过程]应... 叶文豪 王东波关键词:国家社科基金 宗教学 PAJEK 主题模型 基于大数据岗位需求的文本聚类研究 被引量:20 2017年 【目的】对大数据工作岗位需求文本进行挖掘,帮助大数据企业更精准地定位所需人才。【方法】抽取招聘网站上2017年第一季度关于"大数据"的工作岗位信息,使用TF-IDF并结合Word2Vec和K-means实现基于语义的聚类,并利用轮廓系数方法获取最佳聚类效果。【结果】利用抽取获得的实体对文本向量进行表达能够达到良好的聚类效果,最终将岗位需求文本分为工作能力要求、学历要求以及工作经验要求三类。【局限】各网站信息发布的格式不统一,数据清洗不够全面,对聚类效果产生影响;挖掘获取的招聘信息数据量不充足,使Word2Vec模型训练集较小,训练结果还有提升空间。【结论】根据聚类结果发现大数据岗位对学历要求不高、企业偏好有经验的但也不排除无经验的求职者、企业对职位素养要求要高于计算机技术要求等特点。 刘睿伦 叶文豪 高瑞卿 唐梦嘉 王东波关键词:K-MEANS 不同特征下的学术文本结构功能自动识别研究 被引量:21 2018年 随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。 王东波 高瑞卿 叶文豪 周鑫 朱丹浩关键词:文本分类 条件随机场 篇章结构 基于全字语义的摘要结构功能自动识别研究 被引量:22 2019年 学术文献摘要的各个结构都具有特定的功能,但是目前对学术文献摘要结构功能自动识别的研究相对较少,且存在方法较为传统、识别效果不显著的问题。以摘要文本中的字为基本语义单位,本文以基于具有序列属性的LSTM-CRF模型的深度学习方法,利用摘要中所有字所包含的语义信息,构建了期刊论文摘要结构功能自动识别模型,并与具有非序列属性的SVM模型与具有序列属性的RNN模型、CRF模型和LSTM模型进行了多个角度地对比。本文提出的模型在摘要结构功能识别的准确率、召回率和F值上均取得显著效果,F值最高达到85.47%。与RNN模型、CRF模型、LSTM模型和SVM模型相比,LSTM-CRF的平均整体性能分别提升了33.63%、39.13%、32.81%和38.33%。 沈思 胡昊天 叶文豪 王东波基于知识图谱的国外数据科学研究状况分析 被引量:1 2017年 对Web of Science核心合集数据库中数据科学相关主题文献进行检索,利用CiteSpace软件对检索到的数据进行作者、机构的合作网络分析,关键词共现网络分析以及文献共被引分析。基于知识图谱探析近年来国外数据科学研究现状,在此基础之上,结合对文献内容的研究分析,提出数据科学研究面临的一些问题以及未来的发展趋势。 叶文豪 王东波关键词:大数据 知识图谱 基于条件随机场的法言法语实体自动识别模型研究 被引量:10 2017年 【目的】法言法语实体的自动识别是实现裁判文书文本挖掘的重要的基础性工作。【方法】采用爬虫方法获取数据,人工方式进行语料标注,利用NLPIR加载法律领域词典对语料进行分词,结合法言法语的内部和外部特征构建基于条件随机场的特征模板,自动识别语料中的法言法语。【结果】融入法言法语内部和外部特征的条件随机场模型,自动识别法言法语的实验效果良好,模型的调和平均值达到90%以上。【局限】法言法语实体自动识别模型在领域的扩展上有一定的局限性。【结论】基于条件随机场对法言法语实体实现自动抽取是可行的。 张琳 秦策 叶文豪关键词:裁判文书 条件随机场模型 多特征知识下的食品安全事件实体抽取研究 被引量:9 2017年 【目的】从大规模食品安全事件当中抽取食品安全事件实体。【方法】基于已发生的食品安全事件,结合情报学数据获取、标注和组织的方法,融合食品安全事件实体的多种分布特征知识,通过条件随机场模型,构建食品安全事件语料并从中抽取相应的实体。【局限】在食品安全事件实体抽取过程中所制定的特征模板在领域化迁移上具有一定的局限性。【结果】在已有1 500万字经过标注的食品安全事件语料的规模上,通过统计食品安全事件实体的内部和外部特征,基于条件随机场机器学习模型,构建了食品安全实体的抽取模型,该模型最高的F值达到91.94%。【结论】通过对食品安全事件实体抽取结果的分析,在食品这一领域化的语料上,基于条件随机场进行实体抽取是可行的。 王东波 吴毅 叶文豪 刘睿伦关键词:特征知识 条件随机场模型 食品安全事件 基于多特征时间抽取模型的食品安全事件演化序列生成研究 被引量:7 2017年 为了更深入地挖掘食品安全事件中的特征和规律,本文提出了食品安全事件时间演化序列自动生成方法。首先从食品安全事件的时间构成、时间表达式左右边界特征、时间常用词三方面分析了食品安全事件时间的表达特征。基于时间表达式的多种特征,采用基于条件随机场模型的方法对时间表达式进行识别,F值最高达90%。然后以含有时间表达式的"句"为单位,将一个事件分为多个"时间-事件"的组合,最后采用基于时间戳的逆向匹配法生成事件时间演化序列。该方法可用于分析食品安全事件的发展脉络与特征,以期为政府实施食品安全事件监控提供理论与技术支撑。 王东波 叶文豪 吴毅 刘伙玉 苏新宁 苏新宁关键词:食品安全 时间序列 条件随机场 时间戳