朱丹浩 作品数:28 被引量:149 H指数:8 供职机构: 江苏警官学院 更多>> 发文基金: 国家社会科学基金 国家自然科学基金 教育部人文社会科学重点研究基地度重大研究项目 更多>> 相关领域: 文化科学 自动化与计算机技术 政治法律 电子电信 更多>>
面向古文自然语言处理生成任务的大语言模型评测研究 被引量:2 2024年 大语言模型的频繁发布为大语言模型的评测研究带来了机遇与挑战,针对通用领域大语言模型的评测体系日趋成熟,而面向垂直领域的大语言模型评测仍在起步阶段,本文以古文领域评测为切入点,从语言和知识两个维度构建了一批古籍领域评测任务,并选取当前各大榜单中性能较为优越的13个通用领域大语言模型进行评测。评测结果显示,ERNIE-Bot在古籍领域知识方面遥遥领先于其他模型,而GPT-4模型在语言能力方面表现出最佳性能,在开源模型中,ChatGLM系列模型表现最为出色。通过构建评测任务和数据集,制定了一套适用于古籍领域的大语言模型评测标准,为古籍领域大语言模型性能评测提供了参考,也为后续古籍大语言模型训练过程中的基座模型选取提供了依据。 朱丹浩 赵志枭 张一平 孙光耀 刘畅 胡蝶 王东波关键词:古籍 领域知识 基于领域大语言模型的古籍分词研究 被引量:4 2024年 [目的/意义]文章以古籍自动分词为切入点,引入“荀子”系列大语言模型,对大语言模型在古籍文本分词任务上的表现进行了探讨。[方法/过程]文章基于《左传》分词语料,进行了数据清洗和整理,构建了指令数据集,在此基础上,从数据集中抽取了1 000条作为测试数据,并分别使用500、1 000、2 000、5 000条数据作为训练数据进行指令微调,并测试其性能。[结果/结论]实验结果表明,只需要少量的数据,大语言模型就可以有较为理想的表现,在微调数据量达到5 000条数据时,Xunzi-Qwen-7B模型表现出了最优性能,F1值达到84.54%。 朱丹浩 赵志枭 吴娜 王希羽 孙光耀 王东波关键词:《左传》 分词 不同特征下的学术文本结构功能自动识别研究 被引量:24 2018年 随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。 王东波 高瑞卿 叶文豪 周鑫 朱丹浩关键词:文本分类 条件随机场 篇章结构 领域大语言模型下的古籍词性标注应用研究 被引量:4 2024年 [目的/意义]大语言模型的发展为古籍文本挖掘带来了新的思路,将大语言模型与古籍数字化、智能化相结合是新时代古籍工作的必经之路。[方法/过程]文章使用《左传》词性标注语料,通过数据清洗和预处理,构建了一批高质量的词性标注指令数据,在此基础上,分别使用500、1 000、2 000、5 000条数据对大语言模型进行指令微调,并在另外1 000条数据上进行性能测试。[结果/结论]实验结果表明,“荀子”系列模型在古籍文本词性标注任务上性能优于通用领域模型,在微调数据量达到5 000时,Xunzi-Baichuan2-7B模型表现出了最优性能,F1值达到81.67%。 朱丹浩 赵志枭 胡蝶 赵文华 孙光耀 王东波关键词:《左传》 词性标注 新工科背景下实训课程教学改革研究 被引量:1 2024年 针对当前公安院校实训课程教学现状,以学生能力培养、素质提升为导向,进行实训课程教学改革研究。引入评价量规手段,进一步完善评分标准,提出了一种立体化、多维度的考核方式,丰富考核主体,将考核贯穿实训教学全过程,有效提升了学生实训积极性,取得了良好的教学效果。 李俊瑶 叶东 李宗辰 朱丹浩关键词:实训课程 面向汉语句法功能分布知识库的词汇类别知识挖掘研究 被引量:5 2013年 基于清华大学汉语树库,通过多叉树存储结构,构建汉语词汇的句法功能分布知识库。在构建的句法功能分布知识库基础上,利用Sparse Feature Clustering(SFC)中的K-medoids聚类算法,对汉语词汇的类别知识进行挖掘探究。 王东波 朱丹浩关键词:树库 知识库 SFC 洛特卡现象在汉语词汇句法功能分布复杂度中的呈现 被引量:2 2012年 本文基于大规模清华树库,从中统计了汉语词汇在句法结构中充当的句法成分,获取了汉语词汇的句法功能分布,并给出了汉语词汇句法功能分布复杂度的定义。在对汉语词汇按照汉语词汇句法功能分布复杂度的高低排序后,本文发现两者之间呈现洛特卡现象。本文的这一发现一方面揭示了汉语词汇在句法结构中的分布规律,对于汉语的研究具有重要的促进作用;另一方面对于中文信息处理中的词性标注、自动消歧和句法分析等研究具有重要的影响。 王东波 朱丹浩 苏新宁关键词:汉语词汇 基于大语言模型微调的主观题自动评分研究 2025年 随着大语言模型技术的发展,基于Decoder-Only的预训练模型因其强大的语言理解能力和增强的文本生成能力,为主观题自动评分研究带来了新的思路。通过数据清洗与预处理,将主观题评分任务划分为4个子任务:评分标准解析、学生作答评分、总结得分和总得分。通过人工标注的方式构建1000条高质量的主观题自动评分微调数据和100条测试数据。选择Qwen-7B-Chat模型作为基座模型,在算力有限的条件下,该模型通过Lora方法结合DeepSpeed分布式训练即可完成微调。利用1000条数据对Qwen-7B-Chat模型进行微调,并在另外的100条测试数据集上进行性能测试。实验结果表明,使用基于Decoder-Only的大语言模型,在较小的算力条件下(两张NVIDIA 3090Ti显卡)和较少的微调数据量情况下,模型的平均分差仅为0.061,皮尔逊相关系数高达0.952,这一性能远高于未经过微调的基座模型Qwen-7B-Chat和GPT。研究证明,随着技术的进一步发展和优化,基于Decoder-Only的预训练模型有望在更多教育场景中发挥作用,不仅提高评分效率和准确性,还能为教育评价和教学反馈提供更多智能化解决方案。 常正辉 朱丹浩 龚鹏飞面向情报学课程设置的数据科学技能素养自动抽取及分析研究 被引量:13 2018年 情报课程是情报学教学体系的核心和灵魂,是新的情报学人才培养模式的基础。在大数据、数据科学、人工智能发展的大环境下,数据学科与情报学之间存在很多共同点和交叉点,尤其是在对相应工作者所具有的技能素养上。文章通过对数据科学招聘信息中出现的人才技能素养实体的抽取,探究指导情报学学科紧跟时代发展潮流的课程设计内容。通过对招聘网站中数据科学相关工作岗位公告的抓取,经人工标注10534条公告数据,构建了基于预训练字嵌入的BI-LSTM-CRF神经网络的技能素养实体自动抽取模型,并在开发集中取得最高调和平均值85. 04%的效果。文章利用最优模型在11508条招聘公告中进行实体自动抽取,分析抽取结果,并围绕数据科学技能素养要求为情报学课程发展提出了适当建议。 王东波 高瑞卿 苏新宁 朱丹浩关键词:自动抽取 面向汉语自动句法分析的语法知识库构建 被引量:1 2011年 基于100万字的973汉语树库,按照语法功能分布的理论,从汉语自动句法分析和语言知识库构建的角度,构建一个相对系统化和多层次的语法知识库。该语法知识库由汉语词语、短语实例、短语结构、句法规则等知识组成。汉语词语知识共统计51 390个汉语词汇的58种语法知识,短语实例知识共获取3 836个汉语短语实例的58种语法知识,短语结构知识共抽取26种短语结构的58种知识,句法规则共有900条记录知识组成。该语法知识库的构建不仅为汉语自动句法分析和语言学研究提供语法知识,而且为更大规模的语法知识库构建打下基础。 王东波 朱丹浩 谢靖