过弋
- 作品数:68 被引量:120H指数:6
- 供职机构:华东理工大学更多>>
- 发文基金:国家自然科学基金上海市科学技术委员会科研基金更多>>
- 相关领域:自动化与计算机技术文化科学语言文字经济管理更多>>
- 基于层级多任务BERT的海关报关商品分类算法被引量:3
- 2022年
- 海关商品申报场景下,需采用分类模型将商品归类为统一的海关(HS)编码。然而现有海关商品分类模型忽略了待分类文本中词语的位置信息,同时HS编码数以万计,会导致类别向量稀疏、模型收敛速度慢等问题。针对上述问题,结合真实业务场景下人工逐层归类策略,充分利用HS编码的层次结构特点,提出了一种基于层级多任务BERT(HM-BERT)的分类模型。一方面通过BERT模型的动态词向量获取了报关商品文本中的位置信息,另一方面利用HS编码不同层级的类别信息对BERT模型进行多任务训练,以提高归类的准确性和收敛性。在国内某报关服务商2019年的报关数据集上进行的所提模型的有效性验证,相比BERT模型,HM-BERT模型的准确率提高了2个百分点,在模型训练速度上也有所提升;与同样分层级的H-fastText相比,准确率提高了7.1个百分点。实验结果表明,HM-BERT模型能有效改善海关报关商品的分类效果。
- 阮启铭过弋郑楠王业相
- 关键词:多任务学习文本分类
- 情感分类模型的训练方法、情感分类预测方法及电子设备
- 本申请涉及模型训练领域,公开了一种情感分类模型的训练方法、情感分类预测方法及电子设备,包括:接收文本数据及文本数据对应的实际属性标签和实际情感标签,获取文本数据的词向量表示和属性词向量矩阵,文本数据由同一领域内用户的评论...
- 过弋刘欣怡
- 论元提取方法、装置、电子设备及存储介质
- 本发明实施例涉及自然语言处理领域,公开了一种论元提取方法、装置、电子设备及存储介质。本发明中,对输入文本进行词嵌入编码得到初始训练表征;对输入文本进行编码得到预备表征;对输入文本中的各个句子进行AMR解析,得到对应的AM...
- 过弋贾梦伟
- 一种基于语音分析的智能电话客服系统
- 本发明提供一种基于语音分析的智能电话客服系统,首先对客户拨打人工客服的对话语音进行实时记录和有效性检测;然后对客户相关的个人信息进行提取,与所述的对话语音中的客户语音进行声纹识别,进行验证并作为该次咨询投诉的客户身份并记...
- 李冬冬王喆潘秀清过弋
- 文献传递
- 基于认知心理学模型的自动文本摘要生成技术被引量:1
- 2009年
- 自动文本摘要生成(ATS)与计算机科学和认知心理学密切相关。提出了一个自动文本摘要生成系统(EI-ATS)。该系统借助句法和词法分析,将认知心理学中的事件-索引(Event-indexing)模型运用到自动文本摘要生成。评价结果表明:该系统在多文件摘要生成方面表现良好,成为整合两个相异但相关领域知识的研究范例。
- 马汉华邵志清过弋
- 关键词:自然语言处理
- 融合交互注意力和参数自适应的商品会话推荐被引量:5
- 2022年
- 在电商场景中,用户面对繁杂的商品时往往难以快速检索到所需商品,而基于会话的商品推荐能通过学习用户短期兴趣从而为其推荐可能感兴趣的商品,因此基于会话的推荐研究具有显著的理论和应用研究价值。已有的会话推荐算法大多关注于利用全局图中的信息来增强会话图中的表征学习,而忽略了会话图和全局图上物品表征之间的交互关系。该文提出一种通过交互注意力和改进参数自适应策略增强的图神经网络商品会话推荐模型。交互注意层通过提取强相关信息来修正全局图和会话图中的商品表示,而参数自适应层则通过改进参数自适应策略动态权重调整以获得物品的最终表示进而用于预测。实验结果表明,该文所提出的模型在Tmall数据集上显著优于对比模型。
- 郑楠过弋李智强王志宏
- TransformerG:基于层级图结构与文本注意力机制的法律文本多跳阅读理解被引量:2
- 2022年
- 该文针对Cail2020法律多跳机器阅读理解数据集进行研究,提出了TransformerG,一个基于不同层级的实体图结构与文本信息的注意力机制融合的多跳阅读理解模型。该模型有效地结合了段落中问题节点、问题的实体节点、句子节点、句中的实体节点的特征与文本信息的特征,从而预测答案片段。此外,该文提出了一种句子级滑动窗口的方法,有效解决在预训练模型中文本过长导致的截断问题。利用TransformerG模型参加中国中文信息学会计算语言学专委会(CIPS-CL)和最高人民法院信息中心举办的“中国法研杯”司法人工智能挑战赛机器阅读理解赛道,取得了第2名的成绩。
- 朱斯琪过弋王业相余军汤奇峰邵志清
- 融合上下文信息的个性化序列推荐深度学习模型被引量:7
- 2021年
- 针对现实购物场景中存在的用户偏好多样性且兴趣动态变化的问题,本文提出一种融合上下文信息的序列推荐模型(DeepSeq),通过嵌入用户提供的反馈信息深入挖掘用户的长短期潜在兴趣,有效解决了传统推荐系统无法模拟用户兴趣进化的问题.该文以真实的电商网站数据为背景,首先,利用历史行为数据和项目辅助信息融合构造长短期会话序列并融合上下文信息,提出兴趣衰减因子反应用户偏好变化.其次,基于文本卷积模型(TextCNN)训练得出序列向量表示,并通过多头注意力机制抽取用户项目序列潜在向量;最后,将用户交叉辅助信息和潜在行为特征组合向量输入到多层感知机,建立基于序列的推荐模型.实验结果表明,在行为序列中融合兴趣衰减因子和项目辅助信息,均有效提高了模型的准确率.此外,DeepSeq相对于传统的推荐模型在评价指标RMSE上至少降低了0.21%,并且在GAUC评价指标上提升值均超过了0.59%.
- 孙淑娟过弋钱梦薇
- 关键词:上下文信息
- 基于条件随机场的评价对象缺省项识别
- 在电商网站评论文本中,评价对象和评价属性的缺省识别对文本情感分析具有重要的作用。针对电商网站评论文本中评价对象和评价属性缺省问题,本文提出了一种基于条件随机场的评价对象缺省项识别方法。首先利用情感词典识别观点句,将缺省项...
- 唐文武过弋徐永斌方旭
- 关键词:条件随机场
- 基于集合预测的方面级情感三元组提取
- 2024年
- 近年来,基于方面级别的情感分析(ABSA)任务受到越来越多的关注。其中,方面级情感三元组提取(ASTE)是ABSA任务中最新的子任务,其要求同时提取出句子的方面词、观点词并输出对应的情感极性。先前的工作大多采用pipeline方式进行提取,忽略了方面词和观点词之间的联系,且容易产生误差传播的问题。对此,该文提出一种基于集合预测的方法,将方面级情感三元组提取问题转换成集合预测问题,以端到端的方式进行三元组提取。在多个基准数据集上的实验表明,该文提出的模型取得了较为先进的结果。
- 余军过弋阮启铭