曾雪强 作品数:42 被引量:122 H指数:6 供职机构: 江西师范大学 更多>> 发文基金: 国家自然科学基金 江西省自然科学基金 教育部科学技术研究重点项目 更多>> 相关领域: 自动化与计算机技术 文化科学 医药卫生 更多>>
基于核方法的潜在语义文本分类模型 在信息检索中,潜在语义索引模型直接应用于文本分类时,由于对分类贡献大的特征可能丢失而效果不佳.而考虑了文本特征及分类信息的潜在语义文本分类模型(LSC)也因为本质上是线性模型而性能不高.为了提高分类性能,通过引入核函数,... 罗远胜 王明文 曾雪强关键词:文本分类 核方法 偏最小二乘 核偏最小二乘 文献传递 融合Emoji情感分布的多标签情绪识别方法 2024年 随着基于互联网的社交媒体兴起,Emoji由于具有以图形化方式快速准确地表达情绪的特点,目前已经成为用户在日常交流中广泛使用的图像文本。已有研究工作表明,在基于文本的情绪识别模型中考虑Emoji信息,对于提升模型性能具有重要的作用。目前,考虑Emoji信息的情绪识别模型大多采用词嵌入模型学习Emoji表示,得到的Emoji向量缺乏与目标情绪的直接关联,Emoji表示蕴含的情绪识别信息较少。针对上述问题,该文通过软标签为Emoji构建与目标情绪直接关联的情感分布向量,并将Emoji情感分布信息与基于预训练模型的文本语义信息相结合,提出融合Emoji情感分布的多标签情绪识别方法(Emoji Emotion Distribution Information Fusion for Multi-label Emotion Recognition,EIFER)。EIFER方法在经典的二元交叉熵损失函数的基础上,通过引入标签相关感知损失对情绪标签间存在的相关性进行建模,以提升模型的多标签情绪识别性能。EIFER方法的模型结构由语义信息模块、Emoji信息模块和多损失函数预测模块组成,采用端到端的方式对模型进行训练。在SemEval2018英文数据集上的情绪预测对比实验结果表明,该文提出的EIFER方法比已有的情绪识别方法具有更优的性能。 刘烨 刘仕鑫 曾雪强 左家莉关键词:情绪识别 结合全局对应矩阵和相对位置信息的古汉语实体关系联合抽取 2024年 目前,基于全局对应矩阵的联合抽取模型在英文领域和现代汉语领域的实体关系抽取任务上取得了SOTA(state-of-the-art)结果,然而在古汉语实体关系抽取任务上表现相对较差。这首先由于当前的古汉语实体关系数据集具有数据规模小、数据标注稀疏的特点,模型无法从数据中学习到足量的信息;其次是因为该模型训练时缺少实体的跨度信息,使得模型容易生成长度异常的实体。针对上述问题,该文在研究了开源的《资治通鉴》语料后,人工构建了一个古汉语实体关系数据集,并设计了一种结合全局对应矩阵和相对位置信息的实体关系联合抽取方法。该方法在古汉语实体关系数据集上的精确率和F1值分别达到了81.0%和67.0%,相较于基线模型提升了6.8%和1.4%。同时,该文通过实验验证了上述融合相对位置信息的方法对于解决“容易生成长度异常实体”问题的有效性。 胡益裕 左家莉 涂传龙 曾雪强 万中英 王明文潜在语义分类模型的中文分类性能研究 潜在语义分类模型是针对潜在语义索引模型会丢失某些对分类贡献很大的特征问题进行扩展提出的文本分类模型.通过引入一组新的潜在语义变量,潜在语义分类模型同时考虑了文档集的词信息和类别信息.在以前研究工作的基础上,对潜在语义分类... 曾雪强 王明文 陈素芬关键词:文本分类 潜在语义索引 偏最小二乘 文献传递 数据科学新工科专业“12345”课外实践教学改革探索 2023年 数据科学与大数据技术作为高校近几年开设的新工科专业,如何培养学生的创新意识,提高学生解决实际问题的能力,是当前专业建设中面临的迫切问题。文章提出了“项目驱动、竞赛激励、教师指导、学研结合”的课外实践教学改革总体思路和“12345”课外实践教学改革方案,并提出以“搭平台、建机制、抓活动(项目+竞赛)、出成果”逻辑思路,通过强化平台和机制建设,抓项目研发和学科竞赛活动等措施,培养学生的创新意识和提高学生解决实际问题的能力。为新工科专业课外实践教学提供了有益参考。 钟茂生 吴水秀 曾雪强 罗玮关键词:课外实践教学 潜在语义分类模型的研究 文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息.目前,文本自动分类是信息检索(Information Retrieval:IR)领域中最前沿的研究热... 曾雪强关键词:文本分类 潜在语义索引 偏最小二乘回归 文献传递 一种融合代码和得分信息的编程知识追踪方法 本发明公开了一种融合代码和得分信息的编程知识追踪方法,包括如下步骤:将大学生的历史编程行为表述为在线判题系统OJ中的历史编码事件;将学生编程行为数据集中的每个编程问题输入问题表示模块,给每个编程问题统一生成一个包含知识点... 陈浩飞 付广成 刘邱云 曾雪强中文礼貌风格迁移的研究 2023年 该文研究了一个关于中文的礼貌迁移任务,该任务旨在保留原始文本的内容和意义的同时,将非礼貌的文本转换为礼貌的文本。针对这个任务,建设了一个中文礼貌风格迁移的语料库。并基于此,构建了结合文本对齐模块和流畅度评估模块的中文礼貌风格迁移模型,文本对齐模块在保证文本风格迁移的同时保留文本的内容,流畅度评估模块可以提升生成文本的流畅度。在中文语料库和英文语料库的实验表明,该方法在内容保存度和流畅度这两个指标上都有较强的竞争力。 朱洪坤 左家莉 何思兰 曾雪强 王明文基于情感词和多任务卷积神经网络的文本情感分布学习 被引量:3 2023年 不同于传统的情感分析范式,情感分布学习采用与示例关联的情感分布对多种情绪进行定量建模,可以较好地处理具有情绪模糊性的情感分析任务。针对现有情感分布学习方法缺乏考虑文本分析任务特有的情感词语言学先验知识的问题,该文提出一种基于情感词和多任务卷积神经网络(Lexicon enhanced Multi-Task Convolutional Neural Network,LMT-CNN)的文本情感分布学习模型,用于预测文本的情感分布和情绪标签。LMT-CNN模型的网络结构由文本语义信息模块、情感词的情感知识模块和多任务预测模块组成,采用端到端方式进行模型训练和预测。在7个常用的文本情感数据集上的对比实验结果表明,LMT-CNN模型具有比已有的情感分布学习方法更优的情感分布预测和情绪分类性能。 江晨琳 曾雪强 郭小奉 东雨畅 左家莉 王明文一种融合情感分布的多标签表情符号预测方法 本发明公开了一种融合情感分布的多标签表情符号预测方法,包括如下步骤:利用BERT模型抽取文本的语义信息,使用多层图卷积网络构建融合表情符号情感分布和共现模式信息的表情符号嵌入表示,最后利用表情符号嵌入注意力机制将文本语义... 刘仕鑫 熊珠珠 付广成 刘邱云 曾雪强