水利行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111256006.1 (22)申请日 2021.10.27 (71)申请人 清华大学 地址 100084 北京市海淀区双清路3 0号清 华大学 (72)发明人 詹仙园 徐浩然 李健雄  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 耿向宇 (51)Int.Cl. G06F 30/27(2020.01) G06N 20/00(2019.01) G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 50/30(2012.01)G06F 111/04(2020.01) (54)发明名称 用于目标控制的离线强化学习方法、 装置和 设备 (57)摘要 本发明涉及深度学习技术领域, 具体提供一 种用于目标控制的离线强化学习方法、 装置和设 备。 其中, 用于目标控制的离线强化学习方法, 包 括: 获取历史数据; 基于历史数据, 更新预设的行 为策略模拟器, 确定行为策略、 和行为策略的奖 励期望; 基于历史数据、 行为策略和策略优化目 标函数, 通过预设的智 能体进行行为优化, 得到 优化策略; 其中, 策略优化目标函数为基于约束 项和策略性能提升项构造的; 约束项为基于最大 似然估计的方法构造的; 策略性能提升项为基于 行为策略的奖励期望构造的。 如此, 基于最大似 然估计法构造的约束项, 约束了优化策略的最大 化概率分布 为行为策略, 允许优化策略在高置信 的状态下产生较大偏移, 提高了优化策略的表现 力。 权利要求书2页 说明书9页 附图2页 CN 114186474 A 2022.03.15 CN 114186474 A 1.一种用于目标控制的离线强化学习方法, 其特 征在于, 包括: 获取历史数据; 基于所述历史数据, 更新预设的行为策略模拟器, 确定行为策略和所述行为策略的奖 励期望; 基于所述历史数据、 所述行为策略和策略优化目标函数, 通过预设的智能体进行行为 优化, 得到优化策略; 其中, 所述策略优化目标函数为基于约束项和策略性能提升项构造 的; 所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略 为目标构造的; 所述策略性能提升项被构造为与行为策略的奖励期望相关。 2.根据权利要求1所述的用于目标控制的离线强化学习方法, 其特征在于, 所述约束项 的构造过程包括: 基于最大似然估计的方法, 确定用于指示所述行为策略对所述优化策略的支持程度的 行列式; 将所述行列式作为所述约束 项。 3.根据权利要求1所述的用于目标控制的离线强化学习方法, 其特征在于, 所述策略性 能提升项的构造过程包括: 确定重要性采样系数; 基于所述重要性采样系数和所述行为策略奖励期望, 确定策略性能提升项。 4.根据权利要求3所述的用于目标控制的离线强化学习方法, 其特征在于, 所述确定重 要性采样系数, 包括: 确定目标平均偏差; 所述目标平均偏差为所述重要性采样系数与逆重要性采样系数的 最大化平均偏差; 通过最小化目标平均偏差的方式, 确定所述重要性采样系数。 5.根据权利要求4所述的用于目标控制的离线强化学习方法, 其特征在于, 所述确定目 标平均偏差包括: 确定核函数; 基于所述核函数构造目标平均偏差 。 6.根据权利要求1所述的用于目标控制的离线强化学习方法, 其特征在于, 所述策略优 化目标函数的构造过程包括: 将约束项和策略性能提升项相加, 得到多 项式; 基于最大化所述多 项式对应的值的目标, 构造策略优化目标函数。 7.根据权利要求1所述的用于目标控制的离线强化学习方法, 其特征在于, 所述历史数 据包括: 车辆驾驶环境信息和车辆操控行为信息 。 8.一种用于目标控制的离线强化学习装置, 其特 征在于, 包括: 获取单元, 用于获取历史数据; 确定单元, 用于基于所述历史数据, 更新预设的行为策略模拟器, 确定行为策略、 和所 述行为策略的奖励期望; 优化单元, 用于基于所述历史数据、 所述行为策略和策略优化目标函数, 通过预设的智 能体进行行为优化, 得到优化策略; 其中, 所述策略优化目标函数为基于约束项和策略性能 提升项构 造的; 所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布权 利 要 求 书 1/2 页 2 CN 114186474 A 2为行为策略为目标构造的; 所述策略性能提升项被构造为与行为策略的奖励期望相关。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7中任一项所述的用 于目标控制的离线强化学习方法的步骤。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机 程序被处理器执行时实现如权利要求1至7中任一项所述的用于目标控制的离线强化学习 方法的步骤。权 利 要 求 书 2/2 页 3 CN 114186474 A 3

.PDF文档 专利 用于目标控制的离线强化学习方法、装置和设备

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于目标控制的离线强化学习方法、装置和设备 第 1 页 专利 用于目标控制的离线强化学习方法、装置和设备 第 2 页 专利 用于目标控制的离线强化学习方法、装置和设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:03:15上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。