搜索到88篇“ 性能势“的相关文章
性能算法研究及在RoboCup中的应用
2014年
强化学习是人工智能领域中解决学习控制的一种重要方法。在强化学习算法中,平均奖赏强化学习是以平均奖赏值作为参照标准,适用于解决具有循环特性或不具终结状态的问题,其存在参数和环境的敏感及收敛速度慢等问题,并且强调的是单个智能体的独立学习。针对上述问题,考虑单个智能体与其它智能体的关系及影响,将一种改进的基于性能强化学习算法———G-learning引入到多智能体系统中,设计出一种新的强化学习算法,将新设计的强化学习算法应用在RoboCup的Keepaway平台上。仿真结果表明了在选择较好参考状态的条件下有效提高了强化学习算法在Keepaway平台的性能表现。
杨宛璐陈玮黄浩晖王广涛
关键词:足球机器人性能势多智能体系统
基于性能的智能体学习与规划方法研究
强化学习和智能规划是当前人工智能领域的研究热点。生活中的众多顺序决策问题都可以用马尔科夫决策过程(MDP)进行描述,基于MDP的性能理论为上述问题的求解优化提供了一种新的理论框架,它可以利用样本轨道的估算对参数未知的系...
黄浩晖
关键词:启发式搜索机器人足球
文献传递
基于性能的A*平均奖赏强化学习算法研究被引量:2
2014年
强化学习和性能理论是当前人工智能领域的研究热点,RoboCup足球机器人仿真为人工智能和机器人学研究提供了一个良好的实验平台,针对强化学习和性能理论在足球机器人仿真应用中求解过程不稳定和收敛速度过慢问题,提出了一个新的强化学习算法——基于性能的A*平均奖赏强化学习算法(GA*-learning)。GA*-learning在基于性能的平均奖赏强化学习算法(G-learning)中加入启发式函数,根据启发式策略确定动作的选择,从而加快学习收敛速度。把GA*-learning运用到通过简化的机器人足球领域——keepaway,仿真结果验证了算法能有效提高系统的性能和收敛速度。
黄浩晖杨宛璐陈玮
关键词:性能势启发式搜索
基于性能的改进平均奖赏强化学习算法研究
强化学习是人工智能领域内用于解决学习控制问题的一个重要方法。机器人仿真足球比赛是一个多智能体系统研究的标准问题,具有动态实时、分布式控制、不确定环境中的合作和对抗等特点,是人工智能、控制决策和智能机器人领域发展的一项重要...
杨宛璐
关键词:足球机器人多智能体性能势
基于性能的随机系统在线优化控制算法研究
程康
文献传递
一种MDP基于性能的并行Q学习算法
2009年
性能理论框架内,研究折扣和平均准则马尔可夫决策过程(MDP)的统一并行Q学习算法。提出了独立并行Q学习算法和状态划分并行Q学习算法,重点讨论了算法中的关键参数的设计,即同步点如何选择的同步策略和如何合成Q因子的Q值构建策略,给出了一种固定步长结合一定偏移量的同步策略,并分析了并行中Q值构建策略的确定原则,给出了几种Q值构建策略的选择方法。仿真实验表明并行Q学习算法的有效性。
程文娟唐昊李豹周雷
关键词:Q学习马尔可夫决策过程性能势
基于性能的Markov控制过程双时间尺度仿真算法
2009年
在基于性能的随机逼近方法中引入双时间尺度的概念,提出了离散时间Markov控制过程的基于性能的双时间尺度仿真梯度算法,弥补了传统算法中每步更新算法更新频率过快和更新环更新算法更新频率过慢的不足,并利用三个数值例子来说明双时间尺度更新算法在计算复杂度、收敛速度和收敛精度上的优
鲍秉坤殷保群奚宏生
关键词:MARKOV控制过程性能势
基于性能的随机非线性系统优化算法研究
本文研究了随机非线性系统的最优控制设计问题,给出了基于性能的在线优化算法。性能函数通过系统样本路径进行估算,优化控制可以利用基于性能的优化方程迭代计算获得。论文给出了性能和转移概率函数的估算方法,并通过函数逼近方...
杨晓辉
关键词:随机非线性系统最优控制性能势优化算法
文献传递
控制系统的学习和优化:马尔可夫性能理论与方法
本文采用性能理论和方法,研究了动态控制系统的学习和优化的问题。性能理论是学习和优化领域相当重要的一套理论和方法。基于性能这一核心概念,可以将学习和优化领域的各种研究内容和成果放到统一的框架中。进一步,还可以提出相当...
徐琰恺
关键词:离散事件动态系统马尔可夫决策过程性能势最优控制
文献传递
计算Markov链性能的算法研究
基于性能理论,对离散事件动态系统进行性能分析和性能优化时,需要计算实现因子和性能.在这篇文章中,以遍历Markov链为模型,针对现有计算方法的不足,提出了计算实现因子和性能的三种迭代算法和一种仿真算法.三种迭代算法...
蒋兆春
关键词:MARKOV链性能势迭代算法耦合技术线性规划仿真方法
文献传递

相关作者

奚宏生
作品数:254被引量:785H指数:13
供职机构:中国科学技术大学信息科学技术学院
研究主题:性能势 流媒体 鲁棒自适应控制 随机非线性系统 最优控制
殷保群
作品数:124被引量:307H指数:10
供职机构:中国科学技术大学
研究主题:性能势 优化算法 MARKOV决策过程 MARKOV控制过程 闭排队网络
唐昊
作品数:201被引量:236H指数:8
供职机构:合肥工业大学
研究主题:性能势 Q学习 柔性负荷 优化控制 调度
周亚平
作品数:57被引量:167H指数:8
供职机构:中国科学技术大学管理学院
研究主题:性能势 闭排队网络 排队网络 性能指标 仿真
周雷
作品数:80被引量:57H指数:4
供职机构:合肥工业大学
研究主题:Q学习 外骨骼 性能势 优化控制 半MARKOV决策过程