您的位置: 专家智库 > >

文锋

作品数:10 被引量:41H指数:4
供职机构:中国科学技术大学信息科学技术学院自动化系更多>>
发文基金:国家自然科学基金面向21世纪教育振兴行动计划更多>>
相关领域:自动化与计算机技术理学更多>>

文献类型

  • 7篇期刊文章
  • 2篇会议论文
  • 1篇学位论文

领域

  • 9篇自动化与计算...
  • 1篇理学

主题

  • 5篇强化学习方法
  • 3篇最小二乘
  • 3篇LQR
  • 2篇神经网
  • 2篇神经网络
  • 2篇聚类
  • 2篇聚类算法
  • 2篇均值聚类
  • 2篇均值聚类算法
  • 2篇和值
  • 2篇RLS
  • 2篇TD
  • 2篇K-均值
  • 2篇K-均值聚类
  • 2篇K-均值聚类...
  • 1篇递推
  • 1篇递推最小二乘
  • 1篇动态规划
  • 1篇设计方法
  • 1篇神经网络控制

机构

  • 10篇中国科学技术...

作者

  • 10篇文锋
  • 8篇陈宗海
  • 3篇陈春林
  • 2篇周光明
  • 1篇王智灵
  • 1篇卓睿
  • 1篇薛福珍
  • 1篇望安全
  • 1篇柏洁
  • 1篇刘勇
  • 1篇聂建斌
  • 1篇吴晓曙

传媒

  • 3篇控制与决策
  • 1篇计算机研究与...
  • 1篇模式识别与人...
  • 1篇计算机仿真
  • 1篇仪表技术与传...
  • 1篇’2004系...
  • 1篇中国自动化学...

年份

  • 1篇2007
  • 4篇2006
  • 1篇2005
  • 2篇2004
  • 1篇2003
  • 1篇2002
10 条 记 录,以下是 1-10
排序方式:
基于复杂过程简化模型的DHP学习控制被引量:3
2006年
提出一种基于简化模型的DHP(Dual Heuristic Programming)方法的学习控制,避免了标准DHP方法需要被控对象的精确模型来求得对于状态和控制动作的Jacobian矩阵,而是利用简化过程对象模型获得近似Jacob ian矩阵,实现学习控制的需要.生化反应器定值控制的仿真结果表明,该方法加快了学习过程,并对更大范围的参数变化具有鲁棒性.
陈宗海文锋
关键词:生化反应器简化模型
基于节点生长k-均值聚类算法的强化学习方法被引量:17
2006年
处理连续状态强化学习问题,主要方法有两类:参数化的函数逼近和自适应离散划分.在分析了现有对连续状态空间进行自适应划分方法的优缺点的基础上,提出了一种基于节点生长k均值聚类算法的划分方法,分别给出了在离散动作和连续动作两种情况下该强化学习方法的算法步骤.在离散动作的MountainCar问题和连续动作的双积分问题上进行仿真实验.实验结果表明,该方法能够根据状态在连续空间的分布,自动调整划分的精度,实现对于连续状态空间的自适应划分,并学习到最佳策略.
陈宗海文锋聂建斌吴晓曙
关键词:K-均值聚类算法
基于自适应评价的非线性系统神经网络控制被引量:6
2007年
针对一类非线性系统,提出了一种自适应评价方法.该方法可以控制系统输出对参考信号进行跟踪,其评价函数可直接解析求出.该方法只需一个动作网络用于产生控制动作,并且方法中的网络权值初始化可随机选取.使用Lyapunov方法对整个系统的动态性能进行分析,证明了在一定条件下此方法能保证闭环误差及网络权值一致最终有界.仿真结果与理论分析相一致,证明了所提出方法的有效性.
陈宗海文锋王智灵
关键词:自适应评价神经网络LYAPUNOV方法
一种基于强化学习的控制算法研究被引量:4
2003年
该文在阐述了强化学习的基本机制的基础上 ,根据复杂工业过程的非线性、多变量、大时延、强耦合的特点 ,提出了一种将基于案例的学习和强化学习相结合的控制算法 ,并对重油分馏塔进行了控制效果的仿真实验 ,控制结果显示了算法能够很好地满足控制任务。
望安全陈宗海文锋
一种用于LQR控制问题的强化学习方法被引量:1
2006年
现有强化学习方法的收敛性分析大多针对离散状态问题,对于连续状态问题强化学习的收敛性分析仅局限于简单的 LQR 控制问题.本文对现有两种用于 LQR 问题收敛的强化学习方法进行分析,针对存在的问题,提出一种只需部分模型信息的强化学习方法.该方法使用递推最小二乘 TD(RLS-TD)方法估计值函数参数,递推最小二乘方法(RLS)估计贪心改进策略.并给出理想情况下此方法收敛的理论分析.仿真实验表明该方法收敛到最优控制策略.
文锋陈宗海周光明陈春林
关键词:递推最小二乘最优控制
基于RLS-TD和值梯度的强化学习方法用于LQR控制问题
本文针对状态连续的LQR控制问题,提出了一种新的只需部分模型信息的强化学习方法.该方法采用动作-评价者结构,在评价者训练中使用递推最小二乘TD(RLS-TD)方法估计值函数参数,在动作者训练中使用值梯度下降方法改进控制策...
文锋陈宗海陈春林
连续状态自适应离散化基于K-均值聚类的强化学习方法被引量:10
2006年
使用聚类算法对连续状态空间进行自适应离散化,得到了基于K-均值聚类的强化学习方法.该方法的学习过程分为两部分:对连续状态空间进行自适应离散化的状态空间学习,使用K-均值聚类算法;寻找最优策略的策略学习,使用替代合适迹Sarsa学习算法.对连续状态的强化学习基准问题进行仿真实验,结果表明该方法能实现对连续状态空间的自适应离散化,并最终学习到最优策略.与基于CM AC网络的强化学习方法进行比较,结果表明该方法具有节省存储空间和缩短计算时间的优点.
文锋陈宗海卓睿周光明
关键词:K-均值聚类算法
基于RLS-TD和值梯度的强化学习方法用于LQR控制问题
本文针对状态连续的LQR控制问题,提出了一种新的只需部分模型信息的强化学习方法。该方法采用动作-评价者结构,在评价者训练中使用递推最小二乘TD(RLS-TD)方法估计值函数参数,在动作者训练中使用值梯度下降方法改进控制策...
文锋陈宗海陈春林
关键词:最小二乘
文献传递
多变量时滞对象控制的DCS实现
2002年
采用软件控制仪表的概念 ,在DCS中实现了基于多变量频域理论和多变量Smith预估技术的多变量时滞对象的控制 ,并成功应用于一大型啤酒发酵计算机控制系统 ,大大提高了系统的控制精度和DCS的自动化水平。
薛福珍文锋柏洁刘勇
关键词:解耦DCS集散控制系统
基于自适应评价者设计方法的学习控制研究
本论文研究基于ACD方法的学习控制,着重研究在不同已知程度的模型信息条件下,如何保证ACD方法的控制性能。本论文工作主要按照无模型信息、模型信息部分已知和模型信息完全已知三种情况分别展开。  在无模型信息的情况下,主要...
文锋
关键词:动态规划神经网络
文献传递
共1页<1>
聚类工具0