搜索到926篇“ 文本自动分类“的相关文章
基于遗传算法优化支持向量机的文本自动分类方法
2025年
在实际文本自动分类任务中,因文本的多样性和复杂性,常会遇到一些特殊的、不符合常规分类模式的文本。这些文本往往使得标引深度和标引专指度难以达到理想的平衡状态。这种不平衡导致在处理复杂模型和大规模数据时,支持向量机(SVM)模型在参数的选择上很难找到最优参数,造成分类精度较低的结果。为此,文章提出一种基于遗传算法优化支持向量机的文本自动分类方法。通过预处理来提高文本数据的质量,并引入TF-IDF(词频-逆文档频率)和词共现分析,构建出高效的文本数据特征向量。利用遗传算法对SVM模型参数进行优化,自动搜索最佳的参数配置,提升模型的分类性能。将预处理后的文本数据输入到优化后的SVM模型中,模型通过学习文本数据的特征向量与类别标签之间的映射关系,实现对新文本自动分类。实验结果表明,该方法在分类精度、Kappa统计量和汉明损失3个关键指标上,均显著优于对比方法,有效提高了文本自动分类的准确性和稳定性。
胡翔
关键词:遗传算法支持向量机文本自动分类特征向量
一种文本自动分类和标签化方法
本发明公开了一种文本自动分类和标签化方法,具体涉及文本分类技术领域,本发明通过所有评价文本的可用性数据,根据可用性数据得到该评价文本的可用系数,根据可用系数和预设可用系数阈值筛选出第一评价文本集中的可用文本,再对每个可用...
王鑫 刘辉 肖家锴 孙伟 邢璐 潘如轩 蔡翔 王庆军 赵龙 王潇 仇茹嘉 史伟豪
基于改进KNN算法的档案信息文本自动分类方法研究被引量:1
2024年
常规的档案信息文本自动分类方法主要使用Bloom二维分类矩阵标注分类特征,导致分类评价指标偏低。对此,提出基于改进K最近邻(K-Nearest Neighbor,KNN)算法的档案信息文本自动分类方法,即提取档案信息文本自动分类特征,再利用改进KNN算法优化信息文本自动分类流程,实现档案信息文本自动分类。实验结果表明,基于改进KNN算法的档案信息文本自动分类方法的加权精确率(weighted-P)、加权召回率(weighted-R)、加权F值(weighted-F)均较高,证明该方法的分类效果较好,有一定的应用价值。
潘国炀
关键词:档案信息文本
一种小样本文本自动分类方法及系统
本发明涉及自然语言处理与人工智能领域,公开了一种小样本文本自动分类方法及系统,方法包括将待分类文本数据等进行元任务构建,以获取支撑集、查询集以及标签描述信息,并得到元任务样本集合,分词处理后进行嵌入,以获取样本对应的词...
徐小龙 徐旸
一种小样本文本自动分类方法及系统
本发明涉及自然语言处理与人工智能领域,公开了一种小样本文本自动分类方法及系统,方法包括将待分类文本数据等进行元任务构建,以获取支撑集、查询集以及标签描述信息,并得到元任务样本集合,分词处理后进行嵌入,以获取样本对应的词...
徐小龙 徐旸
基于TI-LSTM的文本自动分类算法及应用被引量:3
2023年
为了有效解决中文文本分类问题,提高文本分类的准确性,提出一种基于TF-IDF和神经网络相结合的文本自动分类算法——TI-LSTM算法。算法根据语义情景提取相应特征,进行量化,通过长短期神经网络(LSTM)对量化后的特征进行训练并赋予权重,最后以特征权重为依据对中文文本信息进行评价。使用TI-LSTM算法可以在保留原文语义的情况下准确提取特征。将该算法应用到长春理工大学贫困生等级分类研究中。与传统的KNN、逻辑回归、朴素贝叶斯和LSTM分类方法进行了比较,训练和测试的准确率都有了较大的提升,准确率达到了86%以上。
陈玉天陈洋梁恒瑞孙绍宇施三支
关键词:文本分类特征提取贫困生
基于LDA模型融合Catboost算法的文本自动分类系统设计与实现被引量:3
2023年
互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。
刘爱琴郭少鹏张卓星
关键词:文本自动分类SVM算法
电力设备缺陷文本自动分类实现方法
本发明涉及电力系统领域,尤其涉及电力设备缺陷文本自动分类实现方法,包括:以输变电一次设备缺陷分类标准作为分类依据,建立树形结构模型;通过树路径匹配方法,将待分类的缺陷文本同生成的树结构进行树路径匹配,找到该缺陷文本对应的...
吴向宏梁杰陆金龙李建红陈杭升
基于BERT-BiGRU的中文专利文本自动分类被引量:10
2023年
针对中文发明专利文本的文字描述专业性强、人工分类耗时耗力等问题,提出一种基于BERT-BiGRU模型的中文专利文本自动分类方法,利用预训练的BERT模型完成对中文发明专利文本进行向量化语义表征,引入词嵌入和多头注意力机制等方法抽取专利文本中词语的上下文语境语义信息,最终通过双向GRU门控网络完成对中文发明专利的分类。以Incopat专利数据库中的专利文本构建数据集,设计多组对比实验,实验结果表明,所提方法可以有效提高分类模型对中文专利文本的差异性特征提取能力,对8类专利文本分类准确率达到了85.44%。
刘燕
基于CNN-BiLSTM网络的数控机床故障文本自动分类被引量:2
2023年
中小数控机床企业在运营维护中积累了大量以人工文本记录的故障维修数据。为了实现高效精准分类,帮助维修人员高效开展工作,本文提出一种基于卷积神经网络和双向长短时记忆网络的故障文本分类预测方法。首先通过构建专业特征词库完成预处理,并采用Word2Vec训练词向量;其次CNN层提取文本向量的局部特征后,前后向LSTM提取上下文特征;全连接层对CNN和BiLSTM层进行特征融合和加权后,全连接层通过Softmax激活函数找到概率最大的输出作为预测结果,并用混淆矩阵呈现各个类别预测准确率。本文依据长三角某企业的故障数据进行实验分析,并与单个CNN和BiLSTM模型对比,实验结果表明新方法预测精度可达94%,平均准确率提高11个百分点,P值、R值和F值均达95%,可作为在小数据量故障文本分类领域的有效方法。
徐涯昕何泽恩徐绪堪
关键词:文本分类数控机床故障

相关作者

李湘东
作品数:53被引量:290H指数:9
供职机构:武汉大学信息管理学院
研究主题:文本分类 LDA模型 书目信息 非人灵长类动物 LDA
薛德军
作品数:17被引量:29H指数:2
供职机构:同方知网(北京)技术有限公司
研究主题:主题 中文文本自动分类 向量空间模型 抽取 页面制作
孙茂松
作品数:356被引量:2,396H指数:25
供职机构:清华大学
研究主题:向量 中文信息处理 机器翻译 句子 自然语言处理
夏诏杰
作品数:23被引量:37H指数:4
供职机构:中国科学院过程工程研究所
研究主题:搜索引擎 化学信息学 PORTAL 文本自动分类 化学数据库
王明文
作品数:281被引量:1,064H指数:16
供职机构:江西师范大学
研究主题:文本分类 MARKOV网络 信息检索 语言模型 查询扩展