水利行业标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111256006.1 (22)申请日 2021.10.27 (71)申请人 清华大学 地址 100084 北京市海淀区双清路3 0号清 华大学 (72)发明人 詹仙园 徐浩然 李健雄 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 耿向宇 (51)Int.Cl. G06F 30/27(2020.01) G06N 20/00(2019.01) G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 50/30(2012.01)G06F 111/04(2020.01) (54)发明名称 用于目标控制的离线强化学习方法、 装置和 设备 (57)摘要 本发明涉及深度学习技术领域, 具体提供一 种用于目标控制的离线强化学习方法、 装置和设 备。 其中, 用于目标控制的离线强化学习方法, 包 括: 获取历史数据; 基于历史数据, 更新预设的行 为策略模拟器, 确定行为策略、 和行为策略的奖 励期望; 基于历史数据、 行为策略和策略优化目 标函数, 通过预设的智 能体进行行为优化, 得到 优化策略; 其中, 策略优化目标函数为基于约束 项和策略性能提升项构造的; 约束项为基于最大 似然估计的方法构造的; 策略性能提升项为基于 行为策略的奖励期望构造的。 如此, 基于最大似 然估计法构造的约束项, 约束了优化策略的最大 化概率分布 为行为策略, 允许优化策略在高置信 的状态下产生较大偏移, 提高了优化策略的表现 力。 权利要求书2页 说明书9页 附图2页 CN 114186474 A 2022.03.15 CN 114186474 A 1.一种用于目标控制的离线强化学习方法, 其特 征在于, 包括: 获取历史数据; 基于所述历史数据, 更新预设的行为策略模拟器, 确定行为策略和所述行为策略的奖 励期望; 基于所述历史数据、 所述行为策略和策略优化目标函数, 通过预设的智能体进行行为 优化, 得到优化策略; 其中, 所述策略优化目标函数为基于约束项和策略性能提升项构造 的; 所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略 为目标构造的; 所述策略性能提升项被构造为与行为策略的奖励期望相关。 2.根据权利要求1所述的用于目标控制的离线强化学习方法, 其特征在于, 所述约束项 的构造过程包括: 基于最大似然估计的方法, 确定用于指示所述行为策略对所述优化策略的支持程度的 行列式; 将所述行列式作为所述约束 项。 3.根据权利要求1所述的用于目标控制的离线强化学习方法, 其特征在于, 所述策略性 能提升项的构造过程包括: 确定重要性采样系数; 基于所述重要性采样系数和所述行为策略奖励期望, 确定策略性能提升项。 4.根据权利要求3所述的用于目标控制的离线强化学习方法, 其特征在于, 所述确定重 要性采样系数, 包括: 确定目标平均偏差; 所述目标平均偏差为所述重要性采样系数与逆重要性采样系数的 最大化平均偏差; 通过最小化目标平均偏差的方式, 确定所述重要性采样系数。 5.根据权利要求4所述的用于目标控制的离线强化学习方法, 其特征在于, 所述确定目 标平均偏差包括: 确定核函数; 基于所述核函数构造目标平均偏差 。 6.根据权利要求1所述的用于目标控制的离线强化学习方法, 其特征在于, 所述策略优 化目标函数的构造过程包括: 将约束项和策略性能提升项相加, 得到多 项式; 基于最大化所述多 项式对应的值的目标, 构造策略优化目标函数。 7.根据权利要求1所述的用于目标控制的离线强化学习方法, 其特征在于, 所述历史数 据包括: 车辆驾驶环境信息和车辆操控行为信息 。 8.一种用于目标控制的离线强化学习装置, 其特 征在于, 包括: 获取单元, 用于获取历史数据; 确定单元, 用于基于所述历史数据, 更新预设的行为策略模拟器, 确定行为策略、 和所 述行为策略的奖励期望; 优化单元, 用于基于所述历史数据、 所述行为策略和策略优化目标函数, 通过预设的智 能体进行行为优化, 得到优化策略; 其中, 所述策略优化目标函数为基于约束项和策略性能 提升项构 造的; 所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布权 利 要 求 书 1/2 页 2 CN 114186474 A 2为行为策略为目标构造的; 所述策略性能提升项被构造为与行为策略的奖励期望相关。 9.一种电子设备, 包括存储器、 处理器及存储在存储器上并可在处理器上运行的计算 机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7中任一项所述的用 于目标控制的离线强化学习方法的步骤。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 该计算机 程序被处理器执行时实现如权利要求1至7中任一项所述的用于目标控制的离线强化学习 方法的步骤。权 利 要 求 书 2/2 页 3 CN 114186474 A 3
专利 用于目标控制的离线强化学习方法、装置和设备
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 19:03:15
上传分享
举报
下载
原文档
(712.6 KB)
分享
友情链接
GB-T 43368-2023 宇航用分离脱落连接器通用规范.pdf
GB-T 33474-2016 物联网 参考体系结构.pdf
DB11-T 140-2015 三相配电变压器节能监测 北京市.pdf
飞驰云联 企业数据防泄密产品选型指南 2021.pdf
DB11-T 1652-2019 空气源热泵节能监测 北京市.pdf
信通院 筑牢下一代互联网安全防线—IPv6网络安全白皮书.pdf
GB-T 25977-2022 除雪车.pdf
网络安全审查办法2021.pdf
GB-T 33207-2016 无损检测 在役金属管内氧化皮堆积的磁性检测方法.pdf
GB 21148-2020 足部防护 安全鞋.pdf
LY-T 1738-2020 实木复合地板用胶合板.pdf
DB61-T 1358-2020 曳引驱动家用电梯检验规范 陕西省.pdf
GB-T 36619-2018 信息安全技术 政务和公益机构域名命名规范.pdf
DB14-T 1822-2019 旅游景区安全评估规范 山西省.pdf
T-GDNS 001—2020 广东省网络安全等级保护专家库管理规范.pdf
tc260 大数据安全标准化白皮书 2018版.pdf
T-CEC 675—2022 电化学储能电站安全规程.pdf
T-CBMF 61—2019 混凝土外加剂行业清洁生产 评价指标体系.pdf
SN-T 3093-2012 残渣燃料油中钠、铝、硅、硫、钙、钒、铁、镍的测定 波长色散X射线荧光光谱法.pdf
GM-T 0052-2016 密码设备管理 VPN设备监察管理规范.pdf
1
/
3
14
评价文档
赞助2元 点击下载(712.6 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。