搜索到857篇“ 网页分类“的相关文章
- 网页分类方法及装置
- 本申请公开了一种网页分类方法及装置,用以解决现有的网页分类方法的准确率较低的问题。所述方法包括:确定目标网页对应的待分析对象;确定所述待分析对象的第一特征信息;所述第一特征信息包括所述待分析对象中包含的多个关键特征因子之...
- 罗奇帅王洪斌吴海英权佳成蒋宁
- 一种网页分类方法、电子设备及存储介质
- 本发明提供了一种网页分类方法、电子设备及存储介质,所述方法能够获取待分类网页ID对应的初始Cookie数据,初始Cookie数据包括初始请求键值对,将初始请求键值对作为关键请求键值进一步的获取目标请求键值对,当初始请求键...
- 董霖 刘桢 陈建斌 俞文哲 叶新江
- 网页分类方法、装置、电子设备及存储介质
- 本申请提供了一种网页分类方法、装置、电子设备及存储介质,涉及网络与信息安全技术领域,旨在准确有效地发现非正常网页。所述方法包括:获取待分类网页的源代码;对所述待分类网页的源代码进行处理,得到所述待分类网页的多个源代码特征...
- 王莺燕
- 网页分类检测方法、装置、电子设备和存储介质
- 本发明公开了一种网页分类检测方法、装置、电子设备和存储介质,其中方法包括:从网页中分别获取网页文本数据和网页图像数据;利用文本编码模型从网页文本数据中提取出文本特征,利用图像编码模型从网页图像数据中提取出图像特征;在文本...
- 胡泽远
- 多视角网页分类数据集构建及性能评估
- 2024年
- 网页分类是互联网数据挖掘中的一项重要任务,在信息搜索、推荐系统和知识发现等领域发挥着关键作用.然而,现有的公开网页数据集缺乏多视角信息,难以适用于蕴含复杂特征的网页分类任务.针对上述问题,基于“收集-处理-标注”构建流程,提出一个涵盖文本语义、网页结构等多视角特征的网页数据集Web-Minds,该数据集包含600余个门户网站下的21828条网页.首先,在开放互联网中通过关键词检索采集得到相关网页数据;其次,使用网页解析工具对收集的数据中的文本、DOM结构树、关键词等多视角信息进行提取与清洗;最后,采用大语言模型与“人在回路”的联合标注策略,形成网页类型与网页主题两种标签.在此基础上,针对Web-Minds数据集,测试评估了机器学习、文本分类和网页分类多种算法,结果表明,综合利用多视角特征能有效提升算法的准确率,和仅应用单视角特征相比,在网页类型和主题分类任务上,准确率分别提升了5.49%和5.61%.
- 孙辰星刘伟卢彬梁诗宇诸云强甘小莺
- 关键词:网页分类文本分类数据挖掘
- 基于BERT的黑灰产网页分类方法研究
- 2024年
- 本文提出了一种基于BERT模型的网站分类算法,用于识别特定网站。该算法利用BERT提取网页文本句子特征向量,并采用自注意力层,解决了计算机配置要求的问题。句向量经过核函数SVM分类器进行分类,使用Focal loss处理数据不平衡。实验结果表明,该方法在分类准确度方面明显优于传统机器学习算法和独立的BERT模型。
- 李春霞崔艳海彭艳兵周天河
- 关键词:网页分类
- 一种网页分类方法及装置
- 本申请实施例提供了一种网页分类方法及装置,涉及互联网技术领域,其中,上述方法包括:获得待分类网页的网页信息;在所述网页信息中包含页面标题和页面描述的情况下,对所述页面标题和页面描述进行分词处理,获得第一分词结果以及所述第...
- 施瑞瑞
- 网页分类方法、装置、介质及电子设备
- 本公开涉及一种网页分类方法、装置、介质及电子设备,以解决相关技术中不能根据网页的制作方式进行分类的问题,所述方法包括:获取目标网页的页面信息;将所述目标网页的页面信息与预设分类规则进行匹配,得到所述目标网页的目标分类结果...
- 李冬琳刘瑞琪张博吴海元
- 一种支持网页分类的方法和系统
- 本发明涉及一种支持网页分类的方法和系统,本发明获取数据集网页的HTML文件和JS文件;根据DOM树计算特征向量;根据JS的CFG计算特征向量;将HTML文件和JS文件的对应特征向量组合,得到网页特征向量;将所得网页特征向...
- 陈超凡王轶骏
- 网页分类方法、装置、电子设备及存储介质
- 本申请公开了网页分类方法、装置、电子设备及存储介质,涉及移动互联网、人工智能及深度学习领域,其中的方法可包括:当用户访问任一网页时,确定出所述网页对应的页面内容图像获取方式;按照确定出的页面内容图像获取方式获取页面内容图...
- 王群
相关作者
- 王鹏伟

- 作品数:38被引量:17H指数:1
- 供职机构:同济大学
- 研究主题:网页分类 网络信息服务 电液制动系统 虚拟数据中心 用户
- 闫春钢

- 作品数:352被引量:173H指数:8
- 供职机构:同济大学
- 研究主题:用户 终端 欺诈 交易 用户行为
- 丁志军

- 作品数:258被引量:316H指数:9
- 供职机构:同济大学
- 研究主题:用户 欺诈 PETRI网 交易 终端
- 陈闳中

- 作品数:235被引量:477H指数:10
- 供职机构:同济大学
- 研究主题:用户 用户行为模式 用户行为 路由表 网页分类
- 蒋昌俊

- 作品数:565被引量:1,268H指数:20
- 供职机构:同济大学
- 研究主题:PETRI网 用户 交易 终端 网络