陈桂兴
- 作品数:3 被引量:8H指数:1
- 供职机构:苏州大学计算机科学与技术学院更多>>
- 发文基金:江苏省高校自然科学研究项目江苏省自然科学基金国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于高斯过程的行动者评论家算法被引量:1
- 2016年
- 强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在critic中利用高斯过程对线性带参值函数建模,结合生成模型,根据贝叶斯推理求解值函数的后验分布。将该算法应用于平衡杆实验中,实验结果表明,算法收敛速度较快,可以有效解决在大规模或连续空间中探索和利用的平衡问题,具有较好的性能。
- 陈仕超凌兴宏刘全伏玉琛陈桂兴
- 关键词:高斯过程贝叶斯推理
- 基于优先级扫描Dyna结构的贝叶斯Q学习方法被引量:6
- 2013年
- 贝叶斯Q学习方法使用概率分布来描述Q值的不确定性,并结合Q值分布来选择动作,以达到探索与利用的平衡。然而贝叶斯Q学习存在着收敛速度慢且收敛精度低的问题。针对上述问题,提出一种基于优先级扫描Dyna结构的贝叶斯Q学习方法—Dyna-PS-BayesQL。该方法主要分为2部分:在学习部分,对环境的状态迁移函数及奖赏函数建模,并使用贝叶斯Q学习更新动作值函数的参数;在规划部分,基于建立的模型,使用优先级扫描方法和动态规划方法对动作值函数进行规划更新,以提高对历史经验信息的利用,从而提升方法收敛速度及收敛精度。将Dyna-PS-BayesQL应用于链问题和迷宫导航问题,实验结果表明,该方法能较好地平衡探索与利用,且具有较优的收敛速度及收敛精度。
- 于俊刘全傅启明孙洪坤陈桂兴
- 强化学习中值函数逼近方法的研究
- 强化学习是一类无需先验知识的机器学习方法,以Agent与环境不断的交互为主要特征,以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续状态空间,Agent所能执行的动作可能为离散的或连续...
- 陈桂兴
- 关键词:人工智能高斯过程
- 文献传递