搜索到2181篇“ Q-学习“的相关文章
一种基于高斯过程预测的非零和多玩家博弈的Q-学习方法
本发明公开了一种基于高斯过程预测的非零和多玩家博弈的Q学习方法,属于机器学习和自动控制技术领域,具体涉及一种结合高斯过程预测和脱策略交错Q学习方法,具体步骤如下:步骤一,建立一个包含随机扰动的多玩家非零和博弈问题模型...
李金娜张亦升郎宪明李存磊李岚宇
一种基于数据驱动Q-学习的工业过程容错控制方法
本发明公布了一种基于数据驱动Q学习的工业过程容错控制方法,包括以下步骤:(1)在原系统的状态空间模型基础上建立包含跟踪误差和状态增量的具有执行器故障的等价状态空间模型,并根据新的模型提出性能指标函数;(2)提出值函数以...
王立敏李雪玉李春
含虚拟惯量的虚拟电厂Nash-Q强化学习调度策略
2024年
目前,对于高效利用广泛接入电网的分布式电源问题的研究存在不足。该文通过结合博弈论与强化学习,提出一种含虚拟惯量的虚拟电厂Nash-Q强化学习调度策略,解决具有高随机性和不确定性的分布式电源协调优化调度的问题。首先,建立一个综合考虑碳排放、经济性、出力和惯量约束的虚拟电厂混合目标调度模型,并进一步构造出纳什均衡模型;然后,针对燃气轮机组出力、风光机组出力、储能电池组出力和碳交易量定义多智能体,并构造多智能体的状态空间、动作空间集合和奖励函数,通过马尔可夫决策不断学习更新价值函数;最后,在线推演输出多时间尺度最优调度策略。结果表明:Nash-Q强化学习调度策略相比于传统调度方法,提高了9.7%的收益、减少了13.6%的碳排放量,并利用储能电池组的虚拟惯量有效提高了虚拟电厂的惯量支撑能力,实现了虚拟电厂的低碳高效安全经济运行。
刘东奇钱奕衡张曦
关键词:分布式电源博弈论
连续线性系统Q-学习算法研究
王离寒
基于深度Q-学习的DNN放置策略研究
欧阳逸华
基于非策略Q-学习的工业过程输出反馈容错跟踪控制
贾林竹
一种结合Q增强学习的实时模糊能源管理方法
本发明公开一种结合Q增强学习的实时模糊能源管理方法,属于自动化技术领域。本发明提出的Q学习控制器通过车辆运行需求功率和超级电容荷电状态来采取行动,即无需提前知道驾驶模式。为了延长燃料电池的寿命并降低其能量消耗,通过遗传算...
陶吉利胡业强白杨马龙华
一种改进Q-学习蚁群算法的多无人机四维航迹规划方法
本发明公开一种改进Q学习蚁群算法的多无人机四维航迹规划方法,涉及多无人机四维航迹规划技术领域。所述方法包括:首先,构建多个蚁群并初始化,每个蚁群包含若干个搜索同一个无人机四维航迹的蚂蚁;然后,设计基于改进Q学习的四维...
肖明明于楠董斌王硕李恒辉
一种基于混沌Q-学习算法的竞争窗口大小智能选择方法
本发明涉及一种基于混沌Q学习算法的竞争窗口大小智能选择方法,属于通信技术领域。该方法通过对LTE LAA和WiFi网络场景构建混沌Q学习框架的方式,使得LAA基站可以基于当前的环境根据历史经验智能地选择最优竞争窗口大...
裴二荣江军杰鹿逊易鑫刘珊朱冰冰朱磊李海星
一种基于Q-学习的雷达抗干扰方法及系统
本发明公开了一种基于Q学习的雷达抗干扰方法及系统,方法包括:将雷达接收到的干扰信号作为场景状态集合;将不同自适应干扰抑制处理算法作为动作集合;将状态动作价值函数作为评价函数,建立强化学习模型,采用Q学习算法进行模型训...
王峰汪浩

相关作者

刘亮
作品数:20被引量:19H指数:3
供职机构:安徽大学
研究主题:Q-学习 ROBOCUP 多智能体 多AGENT系统 神经网络
刘伟兵
作品数:36被引量:323H指数:10
供职机构:中国人民银行
研究主题:进化博弈 博弈论 Q-学习 多代理人 神经网络
刘海波
作品数:94被引量:429H指数:11
供职机构:哈尔滨工程大学计算机科学与技术学院
研究主题:分层强化学习 体系结构 多智能体系统 计算机专业 AUV
顾国昌
作品数:146被引量:893H指数:16
供职机构:哈尔滨工程大学计算机科学与技术学院
研究主题:分层强化学习 智能机器人 多智能体系统 路径规划 多机器人
周浦城
作品数:22被引量:189H指数:9
供职机构:中国人民解放军炮兵学院信息工程系
研究主题:图像融合 多机器人系统 偏振图像 追捕 Q-学习