肖飞
- 作品数:13 被引量:56H指数:4
- 供职机构:苏州大学更多>>
- 发文基金:江苏省自然科学基金国家自然科学基金江苏省高校自然科学研究项目更多>>
- 相关领域:自动化与计算机技术文化科学生物学理学更多>>
- 基于多Agent并行采样和学习经验复用的E^3算法被引量:2
- 2013年
- 针对E3算法所需的收敛时间界限太大,在实际问题中难以有效应用的问题,提出了一种基于多Agent并行采样和学习经验复用的改进算法。该算法在探索阶段,通过多Agent并行采样,快速收集模型信息,加速了模型构建过程;在利用阶段,通过保留最优值函数的方式复用算法的学习经验,提高了算法迭代计算值函数的效率。仿真实验结果表明,所提方法与原始的E3算法相比,在收敛速度和精度方面都具有很大的提高,与其他两种并行强化学习方法相比也具有很大的性能优势。
- 刘全杨旭东荆玲肖飞
- 关键词:人工智能多AGENT并行采样
- 一种基于线性函数逼近的离策略Q(λ)算法被引量:25
- 2014年
- 将函数逼近用于强化学习是目前机器学习领域的一个新的研究热点.针对传统的基于查询表及函数逼近的Q(λ)学习算法在大规模状态空间中收敛速度慢或者无法收敛的问题,提出一种基于线性函数逼近的离策略Q(λ)算法.该算法通过引入重要性关联因子,在迭代次数逐步增长的过程中,使得在策略与离策略相统一,确保算法的收敛性.同时在保证在策略与离策略的样本数据一致性的前提下,对算法的收敛性给予理论证明.将文中提出的算法用于Baird反例、Mountain-Car及Random Walk仿真平台,实验结果表明,该算法与传统的基于函数逼近的离策略算法相比,具有较好的收敛性;与传统的基于查询表的算法相比,具有更快的收敛速度,且对于状态空间的增长具有较强的鲁棒性.
- 傅启明刘全王辉肖飞于俊李娇
- 关键词:函数逼近
- 一种FLASH照射组织的定量蛋白质组学分析方法
- 本发明公开了一种FLASH照射组织的定量蛋白质组学分析方法,包括:获取原始数据;对原始数据进行预处理;对预处理后的原始数据进行差异表达蛋白分析,得到三组差异表达蛋白;三组差异表达蛋白包括:FLASH照射组对比常规照射组、...
- 胡广吴代胡文涛肖飞
- 基于自适应归一化RBF网络的Q-V值函数协同逼近模型被引量:9
- 2015年
- 径向基函数网络逼近模型可以有效地解决连续状态空间强化学习问题.然而,强化学习的在线特性决定了RBF网络逼近模型会面临"灾难性扰动",即新样本作用于学习模型后非常容易对先前学习到的输入输出映射关系产生破坏.针对RBF网络逼近模型的"灾难性扰动"问题,文中提出了一种基于自适应归一化RBF(ANRBF)网络的Q-V值函数协同逼近模型及对应的协同逼近算法——QV(λ).该算法对由RBFs提取得到的特征向量进行归一化处理,并在线自适应地调整ANRBF网络隐藏层节点的个数、中心及宽度,可以有效地提高逼近模型的抗干扰性和灵活性.协同逼近模型中利用Q和V值函数协同塑造TD误差,在一定程度上利用了环境模型的先验知识,因此可以有效地提高算法的收敛速度和初始性能.从理论上分析了QV(λ)算法的收敛性,并对比其他的函数逼近算法,通过实验验证了QV(λ)算法具有较优的性能.
- 刘全肖飞傅启明伏玉琛周小科朱斐
- 关键词:函数逼近径向基函数
- 用于强化学习的值函数逼近方法研究
- 强化学习系统以Agent与环境的长期交互为主要特征。该交互可以建模为一个马尔科夫决策过程(MDP)。该环境可能是未知的、动态变化的、不确定的、部分感知甚至不可感知的。面对这样的环境,强化学习旨在构建能够自学习和在线学习的...
- 肖飞
- 关键词:值函数学习算法RBF网络
- 文献传递
- 一种优先级扫描的Dyna结构优化算法被引量:2
- 2013年
- 不确定环境的时序决策问题是强化学习研究的主要内容之一,agent的目标是最大化其与环境交互过程中获得的累计奖赏值.直接学习方法寻找最优策略的算法收敛效率较差,而采用Dyna结构将学习与规划并行集成,可提高算法的收敛效率.为了进一步提高传统Dyna结构的收敛速度和收敛精度,提出了Dyna-PS算法,并在理论上证明了其收敛性.该算法在Dyna结构规划部分使用优先级扫描算法的思想,对优先级函数值高的状态优先更新,剔除了传统值迭代、策略迭代过程中不相关和无更新意义的状态更新,提升了规划的收敛效率,从而进一步提升了Dyna结构算法的性能.将此算法应用于一系列经典规划问题,实验结果表明,Dyna-PS算法有更快的收敛速度和更高的收敛精度,且对于状态空间的增长具有较强的鲁棒性.
- 孙洪坤刘全傅启明肖飞高龙
- 一种批量最小二乘策略迭代方法被引量:9
- 2014年
- 策略迭代是一种迭代地评估和改进控制策略的强化学习方法。采用最小二乘的策略评估方法可以从经验数据中提取出更多有用信息,提高数据有效性。针对在线的最小二乘策略迭代方法对样本数据的利用不充分、每个样本仅使用一次就被丢弃的问题,提出一种批量最小二乘策略迭代算法(BLSPI),并从理论上证明其收敛性。BLSPI算法将批量更新方法与在线最小二乘策略迭代方法相结合,在线保存生成的样本数据,多次重复使用这些样本数据并结合最小二乘方法来更新控制策略。将BLSPI算法用于倒立摆实验平台,实验结果表明,该算法可以有效利用之前的经验知识,提高经验利用率,加快收敛速度。
- 周鑫刘全傅启明肖飞
- 关键词:最小二乘策略迭代
- 基于自适应势函数塑造奖赏机制的梯度下降Sarsa(λ)算法被引量:6
- 2013年
- 针对连续状态空间下的强化学习算法初始性能差及收敛速度慢的问题,提出利用自适应势函数塑造奖赏机制来改进强化学习算法。该机制通过额外的奖赏信号自适应地将模型知识传递给学习器,可以有效提高算法的初始性能及收敛速度。鉴于径向基函数(RBF)网络的优良性能及存在的问题,提出利用自适应归一化RBF(ANRBF)网络作为势函数来塑造奖赏。基于ANRBF网络提出了梯度下降(GD)版的强化学习算法——ANRBF-GD-Sarsa(λ)。从理论上分析了ANRBF-GD-Sarsa(λ)算法的收敛性,并通过实验验证了ANRBF-GD-Sarsa(λ)算法具有较好的初始性能及收敛速度。
- 肖飞刘全傅启明孙洪坤高龙
- 关键词:梯度下降势函数
- 跨课程PBL教学法在化学小分子设计和优化平台开发中的应用被引量:1
- 2021年
- 在后基因组时代背景下,计算机辅助药物发现在现代药物研发中体现越来越重要的作用。它不仅仅是交叉理论学科,涉及到计算机、生物、化工等学科的内容,更具有很强的实践性。因此,本教改论文探讨如何在生物信息学本科专业开展PBL教学,以一个药物设计中具体的问题为导向,将各不同学科中关联课程的知识串联起来,包括从实验流程设计将相关课程的内容以项目内容为导向,将相关知识进行模块化融合,加强知识的融会贯通和实践转化,加深学生对不同学科知识的综合理解,调动学生参与课堂的积极性以及独立思考的主动性,提升学生主动提出问题和解决问题的能力。同时也为类似交叉学科课程的教学和课程设计提供了新的思路。
- 胡广肖飞
- 关键词:PBL教学跨课程生物信息学
- 血栓抽吸与替罗非班在直接经皮冠状动脉介入治疗中的应用研究
- 目的:比较血栓抽吸(thrombus aspiration)与血小板膜糖蛋白(glycoprotein,GP)Ⅱb/Ⅲa受体拮抗剂、替罗非班在急性ST段抬高心肌梗死(STEMI)患者直接经皮冠状动脉介入治疗(PPCI)中...
- 肖飞
- 关键词:经皮冠状动脉成形术血栓抽吸血小板膜糖蛋白受体拮抗剂替罗非班介入治疗