公共文化服务平台

洪宇: 作品数：133 被引量：457H指数：9; 供职机构：苏州大学计算机科学与技术学院更多>>; 发文基金：国家自然科学基金国家教育部博士点基金江苏省高校自然科学研究项目更多>>; 相关领域：自动化与计算机技术文化科学语言文字更多>>

合作作者

常识问答研究综述: 2024年; 常识问答是一项重要的自然语言理解任务,旨在利用常识知识对自然语言问句进行自动求解,以得到准确答案.常识问答在虚拟助手或社交聊天机器人等领域有着广泛的应用前景,且其蕴涵了知识挖掘与表示、语言理解与计算、答案推理和生成等关键科学问题,因而受到工业界和学术界的广泛关注.首先介绍常识问答领域的主要数据集;其次,归纳不同常识知识源在构建方式、常识来源和表现形式上的区别;同时,重点分析并对比前沿常识问答模型,以及融合常识知识的特色方法.特别地,根据不同问答任务场景中常识知识的共性和特性,建立包含属性、语义、因果、语境、抽象和意图6大类的知识分类体系.以此为支撑,针对常识知识数据集建设,感知知识融合和预训练语言模型的协作机制,以及在此基础上的常识知识预分类技术,进行前瞻性的研究,并具体报告上述模型在跨数据集迁移场景下的性能变化,及其在常识答案推理中的潜在贡献.总体上,包含对现有数据和前沿技术的回顾,也包含面向跨数据知识体系建设、技术迁移与通用化的预研内容,借以在汇报领域技术积累的前提下,为其理论和技术的进一步发展提供参考意见.; 范怡帆邹博伟徐庆婷李志峰洪宇

一种隐式篇章关系语料库的构建方法、装置和存储介质: 本发明实施例公开了一种隐式篇章关系语料库的构建方法、装置和计算机可读存储介质，获取疑问句标题及其对应的文档信息；根据篇章关系和疑问句模板的对应关系，对各疑问句标题进行篇章关系标注；利用答案检索技术从各疑问句标题相对应的文...; 洪宇阮慧彬孙雨姚建民; 文献传递

实时问答中基于密度优先策略的答案源搜索方法研究: 任务定义：实时问答是一种针对大规模数据实现高速精准的答案搜索的任务，其可分为面向结构化知识库和无结构化自由文本两种模式。本文集中于后者的研究，并侧重阅读理解和信息检索协作过程中的关键问题。其中，检索的目的是获取潜在蕴含答...; 李伟康洪宇陈鑫张民

基于维基百科的未登录词译文挖掘被引量：2: 2011年; 未登录词(out of vocabulary,OOV)的查询翻译是影响跨语言信息检索(cross-language information retrieval,CLIR)性能的关键因素之一.它根据维基百科(Wikipedia)的数据结构和语言特性,将译文环境划分为目标存在环境和目标缺失环境.针对目标缺失环境下的译文挖掘难点,它采用频度变化信息和邻接信息实现候选单元抽取,并建立基于频度-距离模型、表层匹配模板和摘要得分模型的混合译文挖掘策略.实验将基于搜索引擎的未登录词挖掘技术作为baseline,并采用TOP1进行评测.实验验证基于维基百科的混合译文挖掘方法可达到0.6822的译文正确率,相对baseline取得6.98%的改进.; 孙常龙洪宇葛运东姚建民朱巧明; 关键词：未登录词维基百科跨语言信息检索

基于条件变分自编码器的问题生成方法: 2023年; 将条件变分自编码器作为辅助模块,引入预训练语言模型的编码解码过程,通过数据增强(潜在的语义扩充)以提高模型的鲁棒性。通过建立陈述句与疑问句之间的高维分布联系,由分布采样实现一对多的问题生成。结果表明,融合条件变分自编码器不仅能生成多样性的问题,也有助于提升问题生成的模型性能。在基于SQuAD数据集划分的2个答案可知问题生成数据集Split1和Split2上,BLEU-4值分别被提升到20.75%和21.61%。; 刘东洪宇苏玉兰张民

基于类卷积交互式注意力机制的属性抽取研究被引量：9: 2020年; 在基于深度学习的属性抽取研究中,注意力机制是常用的模型之一.目前,面向属性抽取的注意力机制存在2个局限性:其一,注意力机制多为自注意力机制,这是一种全局式注意力机制,其将不相关的噪音(距离目标词较远且与之不相关的词)带入注意力向量的计算;其二,目前的注意力机制多为单层注意力机制,注意力一次建模后缺少交互性.针对这2个局限性,提出一种面向属性抽取的类卷积交互式注意力机制.该方法先将目标句输入到双向循环神经网络,借以获得每个词的隐式表达,再经过类卷积交互式注意力机制进行表示学习.类卷积交互式注意力机制分为2层注意力计算:第1层按序(从句首到句末)通过滑动窗口控制每个词的上下文宽度,并计算每个词的注意力分布向量;第2层将第1层的注意力分布向量与所有单词进行交互注意力计算,将得到的注意力向量与第1层的注意力向量拼接,最终输入到条件随机场进行属性标记.在2014—2016语义评估(semantic evaluation, SemEval)官方数据集上验证了模型的有效性.相比于基线模型,在4个数据集上的F1值分别提高了2.21,1.35,2.22,2.21个百分点.; 尉桢楷程梦周夏冰李志峰邹博伟洪宇姚建民; 关键词：属性抽取条件随机场情感分析

基于Tri-Training的事件关系分类方法研究: 2015年; 事件关系分类是一项研究事件之间存在何种逻辑关系的自然语言处理技术。针对事件关系分类任务中训练语料不足的问题,提出了基于Tri-Training的事件关系分类方法。该方法首先根据已标注的语料训练三个不同的分类器,以多数投票的方式从未标注集中抽取置信度较高的样本对训练集进行扩充,然后利用新的训练集重新训练分类器,反复迭代,不断完善分类模型,最终达到提升事件关系分类性能的目的。实验结果表明,以F1值为评价标准,基于Tri-Training的事件关系分类方法在四大类事件关系上的分类性能为64.36%。; 丁思远洪宇朱珊珊姚建民朱巧明; 关键词：框架语义半监督学习

一种查询意图边界检测方法研究被引量：1: 2017年; 针对一个特定的查询意图,用户往往需要提交多次查询请求。有效地识别连续查询请求之间的意图变化边界,能够帮助检索系统更好地理解用户完整查询意图,以提高查询推荐及查询扩展的效果,并能够辅助个性化检索中用户模型的建立。在充分分析前人研究的有效特征基础上,提出了基于主题相似度检测意图边界的方法,并在SVM及CRF模型上都取得一定的提升。实验结果显示,所提方法的最优性能比Baseline系统F值提高了2%。; 王凯洪宇邱盈盈王剑姚建民周国栋; 关键词：信息检索查询意图

基于高困惑样本对比学习的隐式篇章关系识别被引量：1: 2022年; 隐式篇章关系识别是一种自动判别论元语义关系的自然语言处理任务。该任务蕴含的关键科学问题涉及两个方面:其一是准确表征论元语义;其二是基于语义表示,有效地判别论元之间的关系类型。该文将集中在第一个方面开展研究。精准可靠的语义编码有助于关系分类,其根本原因是,编码表示的可靠性促进了正负例样本的可区分性(正例样本特指一对蕴含了“目标关系类”的论元,负例则是一对持有“非目标关系类”的论元)。近期研究显示,集成对比学习机制的语义编码方法能够提升模型在正负例样本上的可辨识性。为此,该文将对比学习机制引入论元语义的表示学习过程,利用“对比损失”驱动正负例样本的“相异性”,即在语义空间中聚合同类正样本,且驱散异类负样本的能力。特别地,该文提出基于条件自编码器的高困惑度负例生成方法,并利用这类负例增强对比学习数据的迷惑性,提升论元语义编码器的鲁棒性。该文使用篇章关系分析的公开语料集PDTB进行实验,实验结果证明,上述方法相较于未采用对比学习的基线模型,在面向对比(Comparison)、偶然(Contingency)、扩展(Expansion)及时序(Temporal)四种PDTB关系类型的二元分类场景中,分别产生了4.68%、4.63%、3.14%、12.77%的F 1值性能提升。; 李晓洪宇窦祖俊徐旻涵陆煜翔周国栋

基于语义依存线索的事件关系识别方法研究被引量：15: 2013年; 以事件为基本语义单元,基于事件的篇章结构信息及语义特征,通过分析事件的语义依存关系及其在演化过程中的语义依存规律,提出基于语义依存线索的事件关系识别方法,实现事件语义关系的浅层检测:判定事件之间是否存在语义关系。实验结果显示,相比于传统的基于语义相似度的识别方法,新提出的基于事件语义依存线索的事件关系识别方法获得了5%的性能提升。; 马彬洪宇杨雪蓉姚建民朱巧明; 关键词：依存分析

洪宇

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

洪宇

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈