搜索到17337 篇“ 强化学习算法 “的相关文章
无人机姿态控制深度强化 学习 算法 系统对比与性能分析 2025年 无人机作为一种灵活的空中平台,很大程度上依赖于其姿态控制。姿态控制是指通过调整机体姿态以实现预定飞行的技术。深度强化 学习 (Deep Reinforcement Learning, DRL)作为一种新兴的智能控制算法 ,由于能够处理高维度状态空间和持续动作空间的特性。 林嘉坤 董振宇 黄键耿关键词:智能控制算法 强化学习算法 无人机 面向中药处方智能生成的变分量子强化 学习 算法 本发明公开了面向中药处方智能生成的变分量子强化 学习 算法 ,包括步骤S1:构建面向中药处方智能生成的变分量子强化 学习 模型,从而实现变分量子强化 学习 建模中药处方生成;步骤S2:设计面向动作价值函数的变分量子线路;步骤S3:设计... 李喆霖 张先超 谷正昌 李林洋 乐志伟 邱佳静一种基于强化 学习 算法 的数据驱动群智能管控方法 本发明公开了一种基于强化 学习 算法 的数据驱动群智能管控方法,包括:大数据湖搭建;深度强化 学习 模型开发优化:采用Deep Q‑Network深度强化 学习 算法 学习 复杂的决策策略;多智能体框架搭建:采用Autogen框架实现多智... 高扬华 陆海良 金泳 许珍珍基于DSAW离线强化 学习 算法 的冗余驱动机械臂路径规划方法 本发明公开了一种基于DSAW离线强化 学习 算法 的冗余驱动机械臂路径规划方法,属于机械臂三维空间路径规划领域。针对三维空间内碰撞检测问题,通过包围法将路径节点与障碍物之间的碰撞关系简化为球体与长方体之间的碰撞关系,避免碰撞问... 陈正升 梁爽 王雪松 程玉虎 田阳基于强化 学习 算法 的工业机器人数字孪生模型自更新方法 一种基于强化 学习 算法 的工业机器人数字孪生模型自更新方法,包括以下步骤:第一步、通过传感器收集工业机器人的各项实时运动参数作为数字孪生模型的训练集,在迭代训练过程后得到最优控制策略;对工业机器人不同行为进行分类,并对采集过... 王琪冰 杨昊 陆佳炜 肖刚 顾月江 徐斌 苏宏业 佘昆 童勤峰 谢磊一种基于异质多智能体强化 学习 算法 的异构设备控制方法 本发明公开了一种基于异质多智能体强化 学习 算法 的异构设备控制方法,该方法针对多智能体系统中的设备异质性问题,通过将异构设备协同控制问题建模为异质多智能体强化 学习 问题,利用中心化训练分布式执行框架,得到最优异质多智能体策略网... 郑晓东 曹晖 石天卓 禹世璇 房嘉玥 薛霜思 刘雨晗一种改进强化 学习 算法 的路径规划方法 2025年 提升Q学习 (Q-learning)算法 在复杂环境中的数据效率与决策准确度,无疑是算法 性能优化所面临的关键挑战。将因果模型引入Q学习 算法 ,通过揭示变量间的因果关系,从而提高Q学习 算法 的性能是新兴且热门的研究方向。该文提出一种基于因果模型的Q学习 算法 ,C-Q学习 (Causal-model based Q-learning)算法 。该算法 包括基于智能体利用Q学习 算法 与环境交互过程中关键变量之间的因果关系,构建结构因果模型;采用因果推断理论中的后门调整的方法去除模型中影响奖励的混淆因子所引起的混淆效应,评估了更为准确的Q值,并且精准识别出每个状态下可能获得最高奖励的动作,优化Q学习 算法 的动作选择过程。最后,将Q学习 算法 、Eva-Q学习 算法 、C-Q学习 算法 在栅格环境中进行仿真实验。仿真实验结果表明,C-Q学习 算法 在路径长度、规划时间、数据效率和决策准确度等多个指标上均优于其余两种算法 。 陈松 沈苏彬关键词:Q学习算法 因果推断 基于改进深度强化 学习 算法 的行为决策方法 2025年 针对传统深度强化 学习 算法 因训练时探索策略差导致在自动驾驶决策任务中同时出现行驶效率低、收敛慢和决策成功率低的问题,提出了结合专家评价的深度竞争双Q网络的决策方法。提出离线专家模型和在线模型,在两者间引入自适应平衡因子;引入自适应重要性系数的优先经验回放机制在竞争深度Q网络的基础上搭建在线模型;设计了考虑行驶效率、安全性和舒适性的奖励函数。结果表明,该算法 相较于D3QN、PERD3QN在收敛速度上分别提高了25.93%和20.00%,决策成功率分别提高了3.19%和2.77%,平均步数分别降低了6.40%和0.14%,平均车速分别提升了7.46%与0.42%。 贾瑞豪关键词:自动驾驶 模仿学习 基于改进强化 学习 算法 的公共建筑供能系统调度方法 本发明公开了一种基于改进强化 学习 算法 的公共建筑供能系统调度方法,解决了现有技术的不足,包括以下步骤:步骤1,定义公共建筑供能系统的能量管理系统为智能体,公共建筑供能系统中的可控单元的动作输出构成智能体的动作空间;步骤2,... 姚诚 单卡迪 马伟阳 贾冠青 朱海钦 朱斌清 朱俊宇 于家庆 姜国峰 黄恺 马军燕基于深度强化 学习 算法 的Raid卡缓存容量管理方法及装置 本发明涉及一种智能缓存管理领域,为基于深度强化 学习 算法 的Raid卡缓存容量管理方法及装置。该方法包括采集Raid卡的历史运行数据,根据Raid卡的历史运行数据筛选影响缓存容量策略的关键特征数据,将影响缓存容量策略的关键特... 汪烜烨 陆璐 王劭晟
相关作者
俞扬 作品数:144 被引量:107 H指数:5 供职机构:南京大学 研究主题:强化学习算法 模拟器 无人机 仿真环境 环境模拟器 周志华 作品数:386 被引量:1,913 H指数:23 供职机构:南京大学 研究主题:神经网络 图像 强化学习算法 神经网络集成 数据挖掘 詹德川 作品数:161 被引量:61 H指数:3 供职机构:南京大学 研究主题:强化学习算法 训练数据 无人机 图像 环境模拟器 吴远 作品数:194 被引量:0 H指数:0 供职机构:浙江工业大学 研究主题:凸性 移动用户 线性搜索 最大化 无线资源 黄亮 作品数:217 被引量:49 H指数:4 供职机构:浙江工业大学 研究主题:凸性 移动用户 最小化 最大化 无线资源