水利行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210465805.8 (22)申请日 2022.04.29 (71)申请人 浪潮 (北京) 电子信息产业有限公司 地址 100085 北京市海淀区上地信息路2号 2-1号C栋1层 (72)发明人 邓琪 李茹杨 张亚强 李雪雷  赵雅倩 李仁刚  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 王燕 (51)Int.Cl. G06F 21/62(2013.01) G06N 7/00(2006.01) (54)发明名称 模型生成方法、 运行控制方法、 装置、 设备及 存储介质 (57)摘要 本申请公开了一种模 型生成方法、 运行控制 方法、 装置、 设备及可读 存储介质, 模型生成方法 包括: 根据专家演示数据确定专家策略模型; 对 专家策略模 型进行差分隐私处理; 根据专家隐私 策略模型及在差分隐私处理时的偏差界限及目 标策略模型确定目标策略模型在深度强化学习 中的优化函数; 根据优化函数利用深度强化学习 从专家隐私策略模型及目标策略模型与环境的 交互中对目标策略模型进行迭代更新, 得到最终 的目标策略模型。 本申请公开的技术方案, 对专 家策略模型进行隐私保护, 并根据差分隐私的偏 差界限确定目标策略模型的优化函数, 且使目标 策略模型从专家策略和与环境的交互中更新, 以 提升模型隐私安全性与性能, 从而既保证控制性 能又提高隐私安全性。 权利要求书3页 说明书16页 附图3页 CN 114817989 A 2022.07.29 CN 114817989 A 1.一种模型生成方法, 其特 征在于, 包括: 获取智能体对应的专 家演示数据, 根据所述专 家演示数据确定专 家策略模型; 对所述专 家策略模型进行差分隐私处 理, 得到专 家隐私策略模型; 根据所述专家隐私策略模型及其在差分隐私处理时的偏差界限以及目标策略模型, 确 定所述目标 策略模型在深度强化学习中的优化 函数; 根据所述优化函数, 利用深度强化学习从所述专家隐私策略模型及所述目标策略模型 与环境的交 互中对所述目标 策略模型进行迭代更新, 得到最终的目标 策略模型。 2.根据权利要求1所述的模型生成方法, 其特征在于, 根据 所述专家隐私策略模型及其 在差分隐私处理 时的偏差界限以及目标策略模型, 确定所述目标策略模型在深度强化学习 中的优化 函数, 包括: 采用集中度界限判定 差分隐私处 理对所述专 家策略模型的干扰程度; 根据所述干扰程度中的偏差概 率值确定所述专 家隐私策略模型的偏差界限; 根据所述偏差界限 , 得到所述目标策略模型的近似惩罚函数: 其中, s为状态观测量, πD为所述专 家隐私策略, πθ为所述目标策略模型, ||πθ(s)‑πD(s)||2为所述目标策略模型对所述专家隐 私策略模型的近似值, αλ为所述偏差界限, θ 为所述目标 策略模型的模型参数; 根据所述近似惩罚函数, 确定所述目标策略模型在深度强化学习中的优化函数为: 其中, J(θ)为所述目标策略模型在 深度强化学习中的初始优化函数, E[ ]代表求期望, 为所述目标策略模型的价值函数, γ为奖励折扣因子, r为奖励函数, r=w1·rθ+ w2·||πθ(s)‑πD(s)||2, rθ代表智能体与环境的交互奖励, w1为第一可变奖励系数, ||πθ(s)‑ πD(s)||2代表所述目标策略模型对所述专家隐私策略模型的近似值的近似奖励, w2为第二 可变奖励系数。 3.根据权利要求2所述的模型生成方法, 其特征在于, 根据所述优化函数, 利用深度强 化学习从所述专家隐私策略模型及所述目标策略模型与环境的交互中对所述目标策略模 型进行迭代更新, 得到最终的目标 策略模型, 包括: 根据差分隐私对应的参数及状态观测量s, 确定所述专家隐私策略模型对应的离散化 表示 πD(s), 根据模型参数及状态 观测量s确定所述目标 策略模型对应的离 散化表示 πθ(s); 根据πD(s)、 πθ(s), 通过最大化所述优化函数, 对所述 目标策略模型 的模型参数进行更 新; 利用kl=k0·(1‑l/N)对差分隐私对应的参数k进行调整, 以得到第l次目标策略模型更 新中的参数kl, 并利用 对隐私预算∈进行更 新 ; 其中 , k0为差分隐 私对应的初始参数 , N为目标策略模型更新的 总次数 , ζ∈(0, 1), η为所述专家策略模型对应的离散化表 示{πi}i≤W中的最小值, W为所述专家策略模型对应的离散化表示的数量, b为所述专家策略权 利 要 求 书 1/3 页 2 CN 114817989 A 2模型对应的离 散化表示 最大变化 量, ζ 为系数; 利用 对所述第一可变奖励系数及所述第二可变奖励系数进 行更新; 其中, w1, 0为所述第一可变奖励系数的初始值, w2, 0为所述第二可变奖励系数的初始 值; 返回执行所述根据差分隐私对应的参数、 隐私预算及状态观测量s, 确定所述专家隐私 策略模型对应的离散化表示πD(s), 根据模型参数及状态观测量s确定所述目标策略模型对 应的离散化表示πθ(s)的步骤, 直至达到终止条件; 其中, 在进行迭代更新中, 若∈≤0, 则将 差分隐私对应的参数及第二可变奖励系数设置为0, 将第一可变奖励系数设置为初始值。 4.根据权利要求1所述的模型生成方法, 其特征在于, 对所述专家策略模型进行差分隐 私处理, 得到专 家隐私策略模型, 包括: 采用狄利克雷机制对所述专家策略模型进行差分隐私保护, 得到所述专家隐私策略模 型。 5.根据权利要求1所述的模型生成方法, 其特征在于, 获取智能体对应的专家演示数 据, 包括: 获取所述智能体对应的环境状态信息及专 家控制行为数据; 根据所述环境状态信息及所述专 家控制行为数据得到专 家演示数据。 6.根据权利要求5所述的模型生成方法, 其特征在于, 根据 所述环境状态信 息及所述专 家控制行为数据得到专 家演示数据, 包括: 对所述环境状态信息进行 特征提取与特 征融合, 得到环境状态特 征; 根据时间戳将所述环境状态特征与 所述专家控制行为数据在时序 上进行对齐, 得到一 系列环境状态特性 ‑专家控制行为数据的数据集合, 将所述数据集合作为所述专家演示数 据。 7.根据权利要求1所述的模型生成方法, 其特征在于, 根据 所述专家演示数据确定专家 策略模型, 包括: 根据所述专 家演示数据, 利用GAI L确定所述专 家策略模型。 8.一种运行控制方法, 其特 征在于, 包括: 获取环境状态信息, 将所述环境状态信息输入到最终的目标策略模型中, 得到对智能 体的控制数据; 所述最 终的目标策略模 型利用如权利要求 1至7任一项 所述的模 型生成方法 得到; 根据所述控制数据对所述智能体进行运行控制。 9.一种模型生成装置, 其特 征在于, 包括: 获取模块, 用于获取智能体对应的专家演示数据, 根据所述专家演示数据确定专家策 略模型; 得到模块, 用于对所述专 家策略模型进行差分隐私处 理, 得到专 家隐私策略模型; 确定模块, 用于根据 所述专家隐私策略模型及其在差分隐私处理时的偏差界限以及目 标策略模型, 确定所述目标 策略模型在深度强化学习中的优化 函数; 更新模块, 用于根据所述优化函数, 利用深度强化学习从所述专家隐私策略模型及所 述目标策略模型与 环境的交互中对所述目标策略模型进行迭代更新, 得到最 终的目标策略权 利 要 求 书 2/3 页 3 CN 114817989 A 3

PDF文档 专利 模型生成方法、运行控制方法、装置、设备及存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 模型生成方法、运行控制方法、装置、设备及存储介质 第 1 页 专利 模型生成方法、运行控制方法、装置、设备及存储介质 第 2 页 专利 模型生成方法、运行控制方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:23上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。