张巍
- 作品数:34 被引量:131H指数:5
- 供职机构:中国科学技术大学更多>>
- 发文基金:国家自然科学基金山东省自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术电子电信理学农业科学更多>>
- “神光”装置大尺寸衍射光学元件设计及其应用研究
- 本论文是围绕863-804项目,“用于ICF(惯性约束核聚变:InertialConfinement Fusion)系统激光束匀滑的大尺寸衍射光学元件的研制”这一主题展开的工程应用型研究工作,在结合“神光”装置需求的基础...
- 张巍
- 关键词:衍射光学元件均匀照明惯性约束核聚变
- 基于视觉信息和标签路径的数据抽取
- 2015年
- 结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度去除噪音节点。根据xpath属性将各条数据记录的数据项对齐。对整个抽取过程生成模板,可以使抽取效率得到很大提高。对8个Deep Web网站进行了抽取数据实验,结果表明本文方法是有效的。
- 张巍邹晓明谈凤真
- 关键词:DEEPWEB数据抽取视觉信息
- 分类问题的一种可伸缩特征选择算法被引量:7
- 2005年
- 特征选择是数据挖掘分类中的一个重要问题.该文推导出一种新的衡量特征与类别相关度的测度SCD即描述特征取值序列类分布的CV系数,利用该测度给出一种线性的可伸缩特征选择算法StaFSOS,并证明了在类别数为2时,SCD测度满足分支界限法的单调性;给出了StaFSOS的一个完备形式———BBStaFS.在12个标准数据集中,StaFSOS算法得出的结果和目标集几乎一致,而StaFSOS的效率高于其它算法;而在另1个中,BBStaFS算法得出了准确结果.在用1000个样本20个特征的真实数据进行的测试中,StaFSOS运行时间是目前较快的GRSR的1/2,得出的特征集准确有效.
- 张巍邹翔吴晓如
- 关键词:数据挖掘
- 大型数据库中的高效序列模式增量式更新算法被引量:18
- 2003年
- 提出一种称为FIMS(fastincrementalminingofsequentialpatterns)的序列模式增量式更新算法,处理因数据库的更新而引起的序列模式的维护问题.主要思想是利用原先的序列模式挖掘结果,通过建立一个投影数据库来减少对整个数据库的扫描次数和候选序列的生成,从而提高挖掘的效率.实验结果显示在更新数据量远小于整个数据库的大小时,FIMS算法的性能优于GSP算法4~7倍.
- 邹翔张巍蔡庆生王清毅
- 关键词:数据库增量式更新算法数据挖掘
- 互联网上智能Agent软件算法研究
- 给出了Agent和软件Agent的基本概念,阐释了Internet上软件Agent的有关思想.在分析Internet上软件Agent技术应用存在问题的基础上,提出了加权的统计启发式搜索算法和概率逻辑神经网络的AZ模型,并...
- 吴强张巍蔡庆生
- 关键词:AGENT软件AGENT互联网分布式人工智能
- 基于双层决策的新闻网页正文精确抽取被引量:25
- 2006年
- 本文提出了基于双层决策的新闻网页正文的精确抽取算法,双层决策是指对新闻网页正文所在区域的全局范围决策和对正文范围内每段文字是否确是正文的局部内容决策。首先根据实际应用的需要给出了新闻网页正文的严格界定,然后分析了新闻网页及其正文的特性,提出了基于双层决策的正文抽取策略,基于特征向量提取和决策树学习算法对上述双层决策进行了建模,并在国内10个主要新闻网站的1687个新闻页面上开展了模型训练和测试实验。实验结果表明,上述基于双层决策的方法能够精确地抽取出新闻网页的正文,最终正文抽取与人工标注不完全一致的网页比例仅为18.14%,比单纯局部正文内容决策的方法相对下降了29.85%,同时抽取误差率大于10%的网页比例更是仅为7.11%,满足了实际应用的需要。
- 胡国平张巍王仁华
- 关键词:计算机应用中文信息处理信息抽取决策树正文抽取
- 基于相似度模型的可融合兴趣点分类研究被引量:5
- 2014年
- 研究了如何进一步提高兴趣点(POI)信息融合结果的准确性问题。定义了POI各个特征字段的相似度,并根据这些相似度构造出了POI相似模型,结合机器学习中的分类方法对网上抽取的POI进行分类,有效地区分出可融合、不可融合的POI。最后利用美团团购网上的信息仿真,仿真结果说明了本方法的有效性。
- 张巍李瑞姗高新院
- 关键词:POI相似度地理信息
- 一种XML元数据的自动语义标注方法
- 语义 Web 发展的基础是大量的语义元数据,将网络中的 XML 元数据自动标注成语义元数据成为研究的热点。本文提出的方法将本体构建与元数据标注联系在一起,实现 XML 元数据的自动语义标注。首先利用 XML Schema...
- 王浩然徐建良张巍
- 关键词:自动语义标注语义元数据本体构建
- 文献传递
- 分布式环境下的序列模式发现研究被引量:4
- 2004年
- 提出一种称为DMSP(DistributedMiningofSequentialPatterns)的算法,以解决分布式环境下的序列模式挖掘问题.其主要思想是:利用前缀投影技术划分模式搜索空间,降低数据库的规模,生成局部序列模式;利用模式前缀指定选举站点降低通信开销;多线程异步运行,提高算法的并行性.实验结果显示:在具有海量数据的局域网环境中,DMSP算法的性能优于将数据集中后采用GSP算法65%以上.
- 邹翔张巍肖明军蔡庆生
- 关键词:序列模式挖掘分布式环境多线程海量数据并行性低通
- 无标注的含噪中文长篇幅语音文本的文语对齐研究被引量:1
- 2015年
- 文语对齐技术是语音识别领域中的一项关键技术。传统文语对齐方法利用语音识别器将文语对齐问题转换成了文本与文本的对齐问题,但是该方法依赖于大量有标注数据训练的声学模型。本文提出一种利用开放识别引擎和基于有限状态自动机的语言模型来得到语音与文本一一对齐数据的算法,来摆脱对于大量标注数据的依赖。实验表明利用该算法得到语音文本数据的准确率为99%,可以用于识别器的训练。接着利用该部分数据训练一个面向要识别领域的声学模型,来对文本和语音进行迭代的,自适应的文语对齐。
- 张巍王永远贾晓茹李传越
- 关键词:有限状态自动机语言模型语音识别