水利行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111250535.0 (22)申请日 2021.10.26 (71)申请人 支付宝 (杭州) 信息技 术有限公司 地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人 陈炫颖 刘致宁 俞力 顾立宏  (74)专利代理 机构 北京亿腾知识产权代理事务 所(普通合伙) 11309 代理人 陈婧玥 周良玉 (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 20/00(2019.01) G06Q 20/38(2012.01) G06Q 30/02(2012.01) (54)发明名称 用户表征网络的训练方法及装置 (57)摘要 本说明书实施例提供一种用户表征网络的 训练方法, 包括: 将无偏样本的用户特征输入经 过预训练的第一用户表征网络, 得到第一用户表 征向量, 并且, 将有偏样本的用户特征输入第二 用户表征网络, 得到第二用户表征向量, 其中无 偏样本和有偏样本分别通过向用户发放由随机 策略和非随机策略确定的权益份额而采集; 将得 到的两个用户表征向量分别输入判别器, 得到对 应两个判别结果; 以最小化目标函数的函数值为 目标, 训练判别器, 该函数值与第一损失和第二 损失正相关, 第一损失基于无偏样 本对应的判别 结果和无偏标识而确定, 第二损失基于有偏样本 对应的判别结果和有偏标识而确定; 以最大化目 标函数的函数值为目标, 对第二用户表征网络进 行训练。 权利要求书4页 说明书13页 附图8页 CN 113988291 A 2022.01.28 CN 113988291 A 1.一种用户表征网络的训练方法, 包括: 将无偏样本集中第 一无偏样本的用户特征输入经过预训练 的第一用户表征网络, 得到 第一用户表征向量; 所述无偏 样本集通过向用户发放由随机策略确定的权益份额而采集; 将有偏样本集中第 一有偏样本的用户特征输入第 二用户表征网络, 得到第 二用户表征 向量; 所述有偏 样本集通过向用户发放由非随机策略确定的权益份额而采集; 将所述第一用户表征向量和第 二用户表征向量分别输入判别器, 得到对应的第 一判别 结果和第二判别结果; 以最小化目标函数的函数值为目标, 训练所述判别器, 所述函数值与第一损 失和第二 损失正相关, 所述第一损失基于所述第一判别结果和无偏样本对应的无偏标识而确定, 所 述第二损失基于所述第二判别结果和有偏 样本对应的有偏标识而确定; 以最大化所述目标函数的函数值 为目标, 对所述第二用户表征网络进行训练。 2.根据权利要求1所述的方法, 其中, 所述有偏样本集的样本数大于所述无偏样本集的 样本数。 3.根据权利要求1所述的方法, 其中, 所述无偏样本集中各个无偏样本具有行为标签, 用于指示对应用户是否对对应份额的权益进 行核销; 所述第一用户表征网络通过以下步骤 进行预训练: 将所述无偏样本集中第 二无偏样本中的用户特征输入第 一用户表征网络, 得到第 三用 户表征向量; 将所述第三用户表征向量和第 二无偏样本中的权益份额输入第 一行为预测网络, 得到 第一预测结果; 基于所述第 一预测结果和所述第 二无偏样本的行为标签, 对所述第 一用户表征网络和 第一行为预测网络进行训练。 4.根据权利要求3所述的方法, 其中, 所述第 一行为预测网络 中的参数包括第 一参数矩 阵和第二参数矩阵; 其中, 将所述第三用户表征向量和第二无偏样本中的权益份额输入第 一行为预测网络, 得到第一预测结果, 包括: 分别利用所述第 一参数矩阵和第 二参数矩阵对所述第 三用户表征向量进行线性变换, 得到第一变换值和第二变换值; 利用激活函数处理乘积结果和所述第二变换值之间的和值, 得到所述第一预测结果, 所述乘积结果的运算因子包括利用Softplus函数处理所述第一变换值得到的结果和所述 权益份额。 5.根据权利要求3所述的方法, 其中, 所述第一行为预测网络包括第一权益嵌入层、 第 一融合层和第一预测层; 其中, 将所述第三用户表征向量和第二无偏样本中的权益份额输 入第一行为预测网络, 得到第一预测结果, 包括: 在所述第一权益嵌入层, 对所述权益份额进行嵌入处 理, 得到权益嵌入向量; 在所述第一融合层, 对所述第三用户表征向量和权益嵌入向量进行融合处理, 得到融 合向量; 在所述第 一预测层, 对所述融合向量进行线性变换和/或非线性变换处理, 得到所述第 一预测结果。 6.根据权利要求1所述的方法, 其中, 所述有偏样本集中的各个有偏样本具有行为标权 利 要 求 书 1/4 页 2 CN 113988291 A 2签, 用于指示对应用户是否对对应份额的权益进行核销; 在将有偏样本集中第一有偏样本 的用户特 征输入第二用户表征网络之前, 所述方法还 包括: 基于所述行为标签, 对所述第二用户表征网络进行 预训练。 7.根据权利要求6所述的方法, 其中, 基于所述行为标签, 对所述第二用户表征网络进 行预训练, 包括: 将所述有偏样本集中第 二有偏样本的用户特征输入第 二用户表征网络, 得到第四用户 表征向量; 将所述第四用户表征向量和第 二有偏样本中的权益份额输入第 二行为预测网络, 得到 第二预测结果; 基于所述第 二预测结果和所述第 二有偏样本的行为标签, 对所述第 二用户表征网络和 第二行为表征网络进行训练。 8.一种用户行为预测系统的训练方法, 所述用户行为预测系统包括第二用户表征网络 和第二行为预测网络, 所述方法包括: 获取根据权利要求1的方法经 过训练的第二用户表征网络; 将第三有偏样本中的用户特征输入所述第二用户表征网络, 得到第五用户表征向量; 所述第三有偏样本通过向用户发放由非随机策略确定的权益份额而采集, 并具有指示对应 用户是否对 对应份额的权益进行核销的行为标签; 将所述第五用户表征向量和所述第三有偏样本中的权益份额输入所述第二行为预测 网络, 得到第三预测结果; 基于所述第三预测结果和所述行为标签, 训练所述第二行为预测网络 。 9.根据权利要求8所述的方法, 其中, 所述第 二行为预测网络 中的参数包括第 三参数矩 阵和第四参数矩阵; 其中, 将所述第 五用户表征向量和第三有偏样本中的权益份额输入第 二行为预测网络, 得到第三预测结果, 包括: 分别利用所述第 三参数矩阵和第四参数矩阵对所述第五用户表征向量进行线性变换, 得到第三变换值和第四变换值; 利用激活函数处理乘积结果和所述第 四变换值之间的和值, 得到所述第三预测结果, 所述乘积结果的运算因子包括利用Softplus函数处理所述第三变换值得到的结果和所述 权益份额。 10.根据权利要求8所述的方法, 其中, 所述第 二行为预测网络包括第 二权益嵌入层、 第 二融合层和第二预测层; 其中, 将所述第 五用户表征向量和第三有偏样本中的权益份额输 入第二行为预测网络, 得到第三预测结果, 包括: 在所述第二权益嵌入层, 对所述权益份额进行嵌入处 理, 得到权益嵌入向量; 在所述第二融合层, 对所述第五用户表征向量和权益嵌入向量进行融合处理, 得到融 合向量; 在所述第 二预测层, 对所述融合向量进行线性变换和/或非线性变换处理, 得到所述第 三预测结果。 11.一种用户行为的预测方法, 包括: 获取待预测的目标样本, 其中包括对应用户的用户特 征和权益份额; 将所述目标样本输入根据权利要求8的方法训练好的用户行为预测系统, 得到目标预权 利 要 求 书 2/4 页 3 CN 113988291 A 3

.PDF文档 专利 用户表征网络的训练方法及装置

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用户表征网络的训练方法及装置 第 1 页 专利 用户表征网络的训练方法及装置 第 2 页 专利 用户表征网络的训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:03:24上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。