搜索到17337篇“ 强化学习算法“的相关文章
无人机姿态控制深度强化学习算法系统对比与性能分析
2025年
无人机作为一种灵活的空中平台,很大程度上依赖于其姿态控制。姿态控制是指通过调整机体姿态以实现预定飞行的技术。深度强化学习(Deep Reinforcement Learning, DRL)作为一种新兴的智能控制算法,由于能够处理高维度状态空间和持续动作空间的特性。
林嘉坤董振宇黄键耿
关键词:智能控制算法强化学习算法无人机
面向中药处方智能生成的变分量子强化学习算法
本发明公开了面向中药处方智能生成的变分量子强化学习算法,包括步骤S1:构建面向中药处方智能生成的变分量子强化学习模型,从而实现变分量子强化学习建模中药处方生成;步骤S2:设计面向动作价值函数的变分量子线路;步骤S3:设计...
李喆霖张先超谷正昌李林洋乐志伟邱佳静
一种基于强化学习算法的数据驱动群智能管控方法
本发明公开了一种基于强化学习算法的数据驱动群智能管控方法,包括:大数据湖搭建;深度强化学习模型开发优化:采用Deep Q‑Network深度强化学习算法学习复杂的决策策略;多智能体框架搭建:采用Autogen框架实现多智...
高扬华陆海良金泳许珍珍
基于DSAW离线强化学习算法的冗余驱动机械臂路径规划方法
本发明公开了一种基于DSAW离线强化学习算法的冗余驱动机械臂路径规划方法,属于机械臂三维空间路径规划领域。针对三维空间内碰撞检测问题,通过包围法将路径节点与障碍物之间的碰撞关系简化为球体与长方体之间的碰撞关系,避免碰撞问...
陈正升梁爽王雪松程玉虎田阳
基于强化学习算法的工业机器人数字孪生模型自更新方法
一种基于强化学习算法的工业机器人数字孪生模型自更新方法,包括以下步骤:第一步、通过传感器收集工业机器人的各项实时运动参数作为数字孪生模型的训练集,在迭代训练过程后得到最优控制策略;对工业机器人不同行为进行分类,并对采集过...
王琪冰杨昊陆佳炜肖刚顾月江徐斌苏宏业佘昆童勤峰谢磊
一种基于异质多智能体强化学习算法的异构设备控制方法
本发明公开了一种基于异质多智能体强化学习算法的异构设备控制方法,该方法针对多智能体系统中的设备异质性问题,通过将异构设备协同控制问题建模为异质多智能体强化学习问题,利用中心化训练分布式执行框架,得到最优异质多智能体策略网...
郑晓东曹晖石天卓禹世璇房嘉玥薛霜思刘雨晗
一种改进强化学习算法的路径规划方法
2025年
提升Q学习(Q-learning)算法在复杂环境中的数据效率与决策准确度,无疑是算法性能优化所面临的关键挑战。将因果模型引入Q学习算法,通过揭示变量间的因果关系,从而提高Q学习算法的性能是新兴且热门的研究方向。该文提出一种基于因果模型的Q学习算法,C-Q学习(Causal-model based Q-learning)算法。该算法包括基于智能体利用Q学习算法与环境交互过程中关键变量之间的因果关系,构建结构因果模型;采用因果推断理论中的后门调整的方法去除模型中影响奖励的混淆因子所引起的混淆效应,评估了更为准确的Q值,并且精准识别出每个状态下可能获得最高奖励的动作,优化Q学习算法的动作选择过程。最后,将Q学习算法、Eva-Q学习算法、C-Q学习算法在栅格环境中进行仿真实验。仿真实验结果表明,C-Q学习算法在路径长度、规划时间、数据效率和决策准确度等多个指标上均优于其余两种算法
陈松沈苏彬
关键词:Q学习算法因果推断
基于改进深度强化学习算法的行为决策方法
2025年
针对传统深度强化学习算法因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引入自适应重要性系数的优先经验回放机制在竞争深度Q网络的基础上搭建在线模型;设计了考虑行驶效率、安全性和舒适性的奖励函数。结果表明,该算法相较于D3QN、PERD3QN在收敛速度上分别提高了25.93%和20.00%,决策成功率分别提高了3.19%和2.77%,平均步数分别降低了6.40%和0.14%,平均车速分别提升了7.46%与0.42%。
贾瑞豪
关键词:自动驾驶模仿学习
基于改进强化学习算法的公共建筑供能系统调度方法
本发明公开了一种基于改进强化学习算法的公共建筑供能系统调度方法,解决了现有技术的不足,包括以下步骤:步骤1,定义公共建筑供能系统的能量管理系统为智能体,公共建筑供能系统中的可控单元的动作输出构成智能体的动作空间;步骤2,...
姚诚单卡迪马伟阳贾冠青朱海钦朱斌清朱俊宇于家庆姜国峰黄恺马军燕
基于深度强化学习算法的Raid卡缓存容量管理方法及装置
本发明涉及一种智能缓存管理领域,为基于深度强化学习算法的Raid卡缓存容量管理方法及装置。该方法包括采集Raid卡的历史运行数据,根据Raid卡的历史运行数据筛选影响缓存容量策略的关键特征数据,将影响缓存容量策略的关键特...
汪烜烨陆璐王劭晟

相关作者

俞扬
作品数:144被引量:107H指数:5
供职机构:南京大学
研究主题:强化学习算法 模拟器 无人机 仿真环境 环境模拟器
周志华
作品数:386被引量:1,913H指数:23
供职机构:南京大学
研究主题:神经网络 图像 强化学习算法 神经网络集成 数据挖掘
詹德川
作品数:161被引量:61H指数:3
供职机构:南京大学
研究主题:强化学习算法 训练数据 无人机 图像 环境模拟器
吴远
作品数:194被引量:0H指数:0
供职机构:浙江工业大学
研究主题:凸性 移动用户 线性搜索 最大化 无线资源
黄亮
作品数:217被引量:49H指数:4
供职机构:浙江工业大学
研究主题:凸性 移动用户 最小化 最大化 无线资源