公共文化服务平台

江苏省高校自然科学研究项目(13KJB520020): 作品数：22 被引量：205H指数：5; 相关作者：刘全傅启明朱斐伏玉琛章鹏更多>>; 相关机构：苏州大学吉林大学苏州科技大学更多>>; 发文基金：江苏省高校自然科学研究项目国家自然科学基金江苏省自然科学基金更多>>; 相关领域：自动化与计算机技术电子电信更多>>

基于凸多面体抽象域的自适应强化学习技术研究被引量：5: 2018年; 表格驱动的算法是解决强化学习问题的一类重要方法,但由于"维数灾"现象的存在,这种方法不能直接应用于解决具有连续状态空间的强化学习问题.解决维数灾问题的方法主要包括两种:状态空间的离散化和函数近似方法.相比函数近似,基于连续状态空间离散化的表格驱动方法具有原理直观、程序结构简单和计算轻量化的特点.基于连续状态空间离散化方法的关键是发现合适的状态空间离散化机制,平衡计算量及准确性,并且确保基于离散抽象状态空间的数值性度量,例如V值函数和Q值函数,可以较为准确地对原始强化学习问题进行策略评估和最优策略π*计算.文中提出一种基于凸多面体抽象域的自适应状态空间离散化方法,实现自适应的基于凸多面体抽象域的Q(λ)强化学习算法(Adaptive Polyhedra Domain based Q(λ),APDQ(λ)).凸多面体是一种抽象状态的表达方法,广泛应用于各种随机系统性能评估和程序数值性属性的验证.这种方法通过抽象函数,建立具体状态空间至多面体域的抽象状态空间的映射,把连续状态空间最优策略的计算问题转化为有限大小的和易于处理的抽象状态空间最优策略的计算问题.根据与抽象状态相关的样本集信息,设计了包括BoxRefinement、LFRefinement和MVLFRefinement多种自适应精化机制.依据这些精化机制,对抽象状态空间持续进行适应性精化,从而优化具体状态空间的离散化机制,产生符合在线抽样样本空间所蕴涵的统计奖赏模型.基于多面体专业计算库PPL(Parma Polyhedra Library)和高精度数值计算库GMP(GNU Multiple Precision)实现了算法APDQ(λ),并实施了实例研究.选择典型的连续状态空间强化学习问题山地车(Mountain Car,MC)和杂技机器人(Acrobatic robot,Acrobot)作为实验对象,详细评估了各种强化学习参数和自适应精化相关的阈值参数对APDQ(λ)性能的影响,探究了抽象状�; 陈冬火刘全朱斐金海东

基于值函数迁移的启发式Sarsa算法被引量：2: 2018年; 针对Sarsa算法存在的收敛速度较慢的问题,提出一种改进的基于值函数迁移的启发式Sarsa算法(VFT-HSA)。该算法将Sarsa算法与值函数迁移方法相结合,引入自模拟度量方法,在相同的状态空间和动作空间下,对新任务与历史任务之间的不同状态进行相似性度量,对满足条件的历史状态进行值函数迁移,提高算法的收敛速度。此外,该算法结合启发式探索方法,引入贝叶斯推理,结合变分推理衡量信息增益,并运用获取的信息增益构建内在奖赏函数作为探索因子,进而加快算法的收敛速度。将所提算法用于经典的Grid World问题,并与Sarsa算法、Q-Learning算法以及收敛性能较好的VFT-Sarsa算法、IGP-Sarsa算法进行比较,实验表明,所提算法具有较快的收敛速度和较好的稳定性。; 陈建平杨正霞刘全吴宏杰徐杨徐杨

基于云计算的公交OD矩阵构建方法被引量：8: 2016年; OD矩阵作为交通客流数据可视化的重要方法,是公交系统评价和优化的重要依据.提出了一种基于云计算的OD矩阵构建框架,在此框架下利用云计算优异的存取速度及计算性能,实现了对公交历史数据的筛选、预处理、变换、数据挖掘、解释评价等操作.此外,还提出一种综合了追踪乘客出行行为规律和估计站点热度的OD矩阵构建模型来实现对乘客下车站点较为精确的估计.算例分析表明,根据该模型计算得到的各站点下车人数结果能较好地拟合实际出行OD矩阵.; 孙慈嘉李嘉伟凌兴宏; 关键词：云计算数据挖掘

增量式双自然策略梯度的行动者评论家算法被引量：2: 2017年; 针对强化学习中已有连续动作空间算法未能充分考虑最优动作的选取方法和利用动作空间的知识,提出一种对自然梯度进行改进的行动者评论家算法。该算法采用最大化期望回报作为目标函数,对动作区间上界和下界进行加权来求最优动作,然后通过线性函数逼近器来近似动作区间上下界的权值,将最优动作求解转换为对双策略参数向量的求解。为了加快上下界的参数向量学习速率,设计了增量的Fisher信息矩阵和动作上下界权值的资格迹,并定义了双策略梯度的增量式自然行动者评论家算法。为了证明该算法的有效性,将该算法与其他连续动作空间的经典强化学习算法在3个强化学习的经典测试实验中进行比较。实验结果表明,所提算法具有收敛速度快和收敛稳定性好的优点。; 章鹏刘全钟珊翟建伟钱炜晟; 关键词：自然梯度

连续空间中的一种动作加权行动者评论家算法被引量：5: 2017年; 经典的强化学习算法主要应用于离散状态动作空间中.在复杂的学习环境下,离散空间的强化学习方法不能很好地满足实际需求,而常用的连续空间的方法最优策略的震荡幅度较大.针对连续空间下具有区间约束的连续动作空间的最优控制问题,提出了一种动作加权的行动者评论家算法(Action Weight Policy Search Actor Critic,AW-PS-AC).AW-PS-AC算法以行动者评论家为基本框架,对最优状态值函数和最优策略使用线性函数逼近器进行近似,通过梯度下降方法对一组值函数参数和两组策略参数进行更新.对两组策略参数进行加权获得最优策略,并对获得的最优动作通过区间进行约束,以防止动作越界.为了进一步提高算法的收敛速度,设计了一种改进的时间差分算法,即采用值函数的时间差分误差来更新最优策略,并引入了策略资格迹调整策略参数.为了证明算法的收敛性,在指定的假设条件下对AW-PS-AC算法的收敛性进行了分析.为了验证AW-PS-AC算法的有效性,在平衡杆和水洼世界实验中对AW-PS-AC算法进行仿真.实验结果表明AW-PS-AC算法在两个实验中均能有效求解连续空间中近似最优策略问题,并且与经典的连续动作空间算法相比,该算法具有收敛速度快和稳定性高的优点.; 刘全章鹏钟珊钱炜晟翟建伟; 关键词：函数逼近梯度下降人工智能

Twin-SVM和Twin-KSVC标志物检测与分类方法被引量：2: 2016年; 针对交通标志中禁令标志和指示标志的检测和分类难题,提出一种基于Twin-SVM和Twin-KSVC的交通标志检测与分类方法。对交通标志图像的红色、蓝色和亮度3个通道进行光照归一化处理;在这3个通道上提取Haar-like特征,构建特征向量;采用Twin-SVM方法进行交通标志检测过程的特征训练与验证,采用Twin-KSVC方法进行交通标志分类过程的特征训练与验证。实验采用实测数据对算法进行测试与评价,实验结果表明,该方法可以有效地检测和识别常见的20类禁令和指示交通标志。; 栾咏红刘全; 关键词：交通标志交通标志检测支持向量机 HAAR-LIKE特征

一种基于高斯过程的行动者评论家算法被引量：1: 2016年; 强化学习领域的一个研究难点是在大规模或连续空间中平衡探索和利用的问题。针对该问题,应用函数近似与高斯过程方法,提出新的行动者评论家(actor-critic,AC)算法。该算法在actor中使用时间差分误差构造关于策略参数的更新公式;在critic中利用高斯过程对线性带参值函数建模,结合生成模型,根据贝叶斯推理求解值函数的后验分布。将该算法应用于平衡杆实验中,实验结果表明,算法收敛速度较快,可以有效解决在大规模或连续空间中探索和利用的平衡问题,具有较好的性能。; 陈仕超凌兴宏刘全伏玉琛陈桂兴; 关键词：高斯过程贝叶斯推理

一种不稳定环境下的策略搜索及迁移方法被引量：3: 2017年; 强化学习是一种Agent在与环境交互过程中,通过累计奖赏最大化来寻求最优策略的在线学习方法.由于在不稳定环境中,某一时刻的MDP模型在与Agent交互之后就发生了变化,导致基于稳定MDP模型传统的强化学习方法无法完成不稳定环境下的最优策略求解问题.针对不稳定环境下的策略求解问题,利用MDP分布对不稳定环境进行建模,提出一种基于公式集的策略搜索算法——FSPS.FSPS算法在学习过程中搜集所获得的历史样本信息,并对其进行特征信息的提取,利用这些特征信息来构造不同的用于动作选择的公式,采取策略搜索算法求解最优公式.在此基础之上,给出所求解策略的最优性边界,并从理论上证明了迁移到新MDP分布中策略的最优性主要依赖于MDP分布之间的距离以及所求解策略在原始MDP分布中的性能.最后,将FSPS算法用于经典的Markov Chain问题,实验结果表明,所求解的策略具有较好的性能.; 朱斐刘全傅启明陈冬火王辉伏玉琛

基于可中断Option的在线分层强化学习方法被引量：4: 2016年; 针对大数据体量大的问题,在Macro-Q算法的基础上提出了一种在线更新的Macro-Q算法(MQIU),同时更新抽象动作的值函数和元动作的值函数,提高了数据样本的利用率。针对传统的马尔可夫过程模型和抽象动作均难于应对可变性,引入中断机制,提出了一种可中断抽象动作的Macro-Q无模型学习算法(IMQ),能在动态环境下学习并改进控制策略。仿真结果验证了MQIU算法能加快算法收敛速度,进而能解决更大规模的问题,同时也验证了IMQ算法能够加快任务的求解,并保持学习性能的稳定性。; 朱斐许志鹏刘全伏玉琛王辉; 关键词：大数据分层强化学习 OPTION

一种基于独立任务的POMDP问题的解决方法: 2016年; 通常利用POMDPs对在部分可观测的随机环境中决策的agents建模。针对完整POMDP的求解方法扩展能力弱的问题,提出把多元POMDP分解成多个受限制的POMDPs,然后独立求解每个模型,以获得值函数,并将这些受限制的POMDPs的值函数结合起来以便获得完整POMDP策略。该方法主要阐述识别与独立任务相关的状态变量的过程,以及如何构造被限制在单独任务上的模型。将该方法应用到两个不同规模的岩石采样问题中,实验结果表明,该方法能够获得很好的策略。; 房俊恒朱斐刘全伏玉琛凌兴宏; 关键词：POMDP

江苏省高校自然科学研究项目(13KJB520020)

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

江苏省高校自然科学研究项目(13KJB520020)

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈