关佶红
- 作品数:118 被引量:691H指数:14
- 供职机构:同济大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家重点实验室开放基金更多>>
- 相关领域:自动化与计算机技术天文地球文化科学电子电信更多>>
- 面向金融网页数据的异构表格信息提取模型
- 2023年
- 从异构网页表格中提取实体、关系、属性等信息是构建金融知识图谱和知识库的一项重要任务。然而,现有网页表格信息提取方法大多高度依赖于维基百科、FreeBase等外部知识库,并且不能有效提取商品价格、公司总资产等动态变化的金融数值属性信息。因此,针对金融网页数据缺少外部知识库支撑,以及需要同时有效处理文本型信息和数值型信息这两个挑战,提出了面向金融网页数据的异构表格信息提取(HTIE)模型。HTIE主要由基于规则的无监督表格抽取模块和基于多核卷积神经网络的表格解释模块组成,在不使用外部知识库的情况下,可以有效地从网页中识别出异构表格所在位置并对它规范化,并且能基于少量标注数据同时处理表格中的文本型信息和数值型信息。根据在真实金融网页表格数据集上的实验评估,HTIE可以有效提取和识别金融网络表格中的实体、关系及数值类型的属性信息。与现有方法相比,HTIE在精度、召回率和F1值上分别至少提升了4.2%、2.5%和14.6%。
- 徐宛扬李文根关佶红
- 基于知识增强的企业实体关系预测模型
- 2023年
- 随着知识图谱的不断发展,大量应用于工业界的产业知识图谱应运而生。然而,这些产业知识图谱经常缺乏充足的企业关联关系,如上下游关系、供应关系、合作关系、竞争关系等,导致其应用范围受到极大限制。现有企业关系预测研究大多仅关注知识图谱中三元组本身的结构信息,未能充分利用企业文本描述和企业关联实体的描述等多视角信息。为解决该问题,提出了一种基于知识增强的企业实体关系预测模型KERP。模型首先通过多视角实体特征三元组学习,完善企业实体特征表示;其次,利用图注意力网络获取实体的高阶语义表示,并与TransR模型学习的实体关系低阶语义表示进行融合,进一步增强企业实体及其关系的特征表示;最后,通过二维卷积解码器ConvE实现对企业实体关系的预测。在新能源汽车产业知识图谱数据上的实验分析表明,与现有主流实体关系预测模型相比,KERP在预测企业关系上具有更好的效果,在F1值上有6.7%的提升。此外,在多个公开实体关系预测数据集上的实验结果表明,KERP模型在一般化的实体关系预测任务上也具有较好的通用性。
- 王家祺李文根关佶红邢婷魏小敏邵冰清付宠洁
- 关键词:链路预测
- 基于路网的群体出行计划查询算法
- 群体出行计划(GTP)查询旨在为一组用户查找共同的活动地点(通常以兴趣点(PoI)表示)以达到整体的出行开销最小.当前,对群体出行计划查询的研究大多仅限于欧氏空间,然而人们真实的出行却受到道路网络的约束.针对该问题,提出...
- 朱海泉李文根张毅超关佶红
- 关键词:查询算法路网
- 文献传递
- 非对称双向Base-k Chord被引量:1
- 2010年
- 针对Base-k Chord的路由效率问题,本文对其finger表做出了非对称双向调整,即将其finger表奇数项保留为正向finger,偶数项finger对折到反向作为反向finger,调整后的finger表的大小不变。在此基础上提出了改进的路由算法,该算法每次选择离目标节点最近的finger进行路由。为了证明本文方法比2-Chord的对称双向finger方法更好,将2-Chord扩展成对称双向Base-k Chord,并与之进行了性能比较。实验分析发现,对称双向Base-k Chord的路由效率提升极小,非对称双向Base-kChord有效地降低了平均路由跳数。
- 严华云关佶红詹卫华蒋云良
- 关键词:PEER-TO-PEERCHORD路由算法
- 一种基于文档模式的GML压缩方法
- 本发明属于信息技术中的空间信息获取与处理技术领域,具体为一种基于文档模式的GML压缩方法。该方法将结构与数据分离,用文档模式、及模式验证文档过程中树自动机的状态转换选择编码来表示结构;将空间数据与非空间数据分离,对几何坐...
- 关佶红魏勍颋周水庚朱付保
- 基于语义向量模型的Web服务匹配方法被引量:4
- 2010年
- 针对当前Web服务匹配方法中存在的缺陷,将语义Web服务匹配方法与信息检索技术相结合,提出一种利用语义相似度扩展向量模型的Web服务匹配方法,并通过实验对匹配效果进行了检验与分析。实验结果证明,与基于经典向量模型的匹配方法和相关语义匹配方法相比,该匹配方法具有更高的准确率。
- 毛雪关佶红朱付保
- 关键词:WEB服务匹配向量模型语义WEB服务匹配语义相似度
- 空间坐标分离的GML文档存储与查询
- 2012年
- 随着地理信息系统的广泛应用,GML己经成为空间数据编码、传输、共享、存储和发布的一种国际标准。大量GML数据的出现,对如何有效地管理GML数据提出了新的挑战。根据GML文档的特点,提出了一种基于空间坐标分离的存储方法。该方法将GML文档中的空间坐标数据与非空间坐标数据相分离,分离后的数据分别使用不同的技术进行存储,通过二维坐标连接因子将分离后的数据相关联起来,以保证分离前后数据的一致性。实验结果表明,提出的存储方案是可行的、有效的。
- 王发标关佶红朱付保
- 关键词:空间数据数据分离空间查询
- 基于LDA主题模型的软件缺陷分派方法被引量:11
- 2011年
- 传统的基于向量空间模型的软件缺陷分派方法,由于存在特征空间维度高、数据稀疏且包含噪音等问题,分派准确率较低。为此,提出一种基于隐含狄利克雷分配(LDA)主题模型的软件缺陷分派方法,将缺陷报告从原始的高维文本单词空间映射到低维语义主题空间,在新的低维主题空间上进行分派。实验结果表明,在使用SVM和KNN分类器时,该方法的分派准确率较高。
- 黄小亮郁抒思关佶红
- 关键词:文本分类向量空间模型
- GNETS:一种新的GML数据存储和查询机制
- 2011年
- 随着GML的发展和WebGIS环境下地理空间信息的广泛使用,越来越多的地理信息数据以GML格式表示.然而,以文本形式存储的GML数据给数据管理和查询带来不便.根据GML文档的特点,提出一种新的基于节点关系的GML数据存储和查询机制,将GML数据存储在对象关系数据库中,并根据用户提供的搜索关键词,利用GML数据在对象关系数据库中的存储模式和节点关系,对GML数据进行相关查询,最终将查询结果以SVG格式显示给用户.实验结果表明,提出的查询方法可行有效.
- 张龙关佶红王炜立钱志萍
- 关键词:GML对象关系数据库数据存储
- 工程图纸字符串及标注信息提取被引量:5
- 2012年
- 工程图纸中字符串及标注信息的提取是工程图纸自动化处理极为重要的组成部分,是进行尺寸理解、图像理解等高层次理解的前提和基础。提出一种基于工程图纸知识的预分割字符串及标注信息提取方法,重点关注工程图纸中以表格形式存在的字符串以及图元标注信息的解析、定位、提取。通过前期处理保持字符串与字符串、图元与标注信息之间的逻辑联系,解析获得字符串的坐标信息,对字符串所在的区域进行水平化,去除杂质线段等操作,以达到最佳的识别效果。
- 范帆关佶红
- 关键词:文字识别