专利 用于目标控制的离线强化学习方法、装置和设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111256006.1 (22)申请日 2021.10.27 (71)申请人清华大学地址 100084 北京市海淀区双清路3 0号清华大学 (72)发明人詹仙园　徐浩然　李健雄　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 代理人耿向宇 (51)Int.Cl. G06F 30/27(2020.01) G06N 20/00(2019.01) G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 50/30(2012.01)G06F 111/04(2020.01) (54)发明名称用于目标控制的离线强化学习方法、装置和设备 (57)摘要本发明涉及深度学习技术领域，具体提供一种用于目标控制的离线强化学习方法、装置和设备。其中，用于目标控制的离线强化学习方法，包括：获取历史数据；基于历史数据，更新预设的行为策略模拟器，确定行为策略、和行为策略的奖励期望；基于历史数据、行为策略和策略优化目标函数，通过预设的智能体进行行为优化，得到优化策略；其中，策略优化目标函数为基于约束项和策略性能提升项构造的；约束项为基于最大似然估计的方法构造的；策略性能提升项为基于行为策略的奖励期望构造的。如此，基于最大似然估计法构造的约束项，约束了优化策略的最大化概率分布为行为策略，允许优化策略在高置信的状态下产生较大偏移，提高了优化策略的表现力。权利要求书2页说明书9页附图2页 CN 114186474 A 2022.03.15 CN 114186474 A 1.一种用于目标控制的离线强化学习方法，其特征在于，包括：获取历史数据；基于所述历史数据，更新预设的行为策略模拟器，确定行为策略和所述行为策略的奖励期望；基于所述历史数据、所述行为策略和策略优化目标函数，通过预设的智能体进行行为优化，得到优化策略；其中，所述策略优化目标函数为基于约束项和策略性能提升项构造的；所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布为行为策略为目标构造的；所述策略性能提升项被构造为与行为策略的奖励期望相关。 2.根据权利要求1所述的用于目标控制的离线强化学习方法，其特征在于，所述约束项的构造过程包括：基于最大似然估计的方法，确定用于指示所述行为策略对所述优化策略的支持程度的行列式；将所述行列式作为所述约束项。 3.根据权利要求1所述的用于目标控制的离线强化学习方法，其特征在于，所述策略性能提升项的构造过程包括：确定重要性采样系数；基于所述重要性采样系数和所述行为策略奖励期望，确定策略性能提升项。 4.根据权利要求3所述的用于目标控制的离线强化学习方法，其特征在于，所述确定重要性采样系数，包括：确定目标平均偏差；所述目标平均偏差为所述重要性采样系数与逆重要性采样系数的最大化平均偏差；通过最小化目标平均偏差的方式，确定所述重要性采样系数。 5.根据权利要求4所述的用于目标控制的离线强化学习方法，其特征在于，所述确定目标平均偏差包括：确定核函数；基于所述核函数构造目标平均偏差。 6.根据权利要求1所述的用于目标控制的离线强化学习方法，其特征在于，所述策略优化目标函数的构造过程包括：将约束项和策略性能提升项相加，得到多项式；基于最大化所述多项式对应的值的目标，构造策略优化目标函数。 7.根据权利要求1所述的用于目标控制的离线强化学习方法，其特征在于，所述历史数据包括：车辆驾驶环境信息和车辆操控行为信息。 8.一种用于目标控制的离线强化学习装置，其特征在于，包括：获取单元，用于获取历史数据；确定单元，用于基于所述历史数据，更新预设的行为策略模拟器，确定行为策略、和所述行为策略的奖励期望；优化单元，用于基于所述历史数据、所述行为策略和策略优化目标函数，通过预设的智能体进行行为优化，得到优化策略；其中，所述策略优化目标函数为基于约束项和策略性能提升项构造的；所述约束项为基于最大似然估计的方法以约束优化策略的最大化概率分布权　利　要　求　书 1/2 页 2 CN 114186474 A 2为行为策略为目标构造的；所述策略性能提升项被构造为与行为策略的奖励期望相关。 9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的用于目标控制的离线强化学习方法的步骤。 10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7中任一项所述的用于目标控制的离线强化学习方法的步骤。权　利　要　求　书 2/2 页 3 CN 114186474 A 3

专利 用于目标控制的离线强化学习方法、装置和设备

专利用于目标控制的离线强化学习方法、装置和设备