专利 样本不平衡场景下的样本增量、模型训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211507937.9 (22)申请日 2022.11.29 (71)申请人支付宝（杭州）信息技术有限公司地址 310000 浙江省杭州市西湖区西溪路 556号8层B段801-1 1 (72)发明人王宁涛　蒋晨之　傅幸　王维强　 (74)专利代理机构北京亿腾知识产权代理事务所(普通合伙) 11309 专利代理师陈霁　周良玉 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称样本不平衡场景下的样本增量、模型训练方法及装置 (57)摘要本说明书实施例提供了一种样本不平衡场景下的样本增量、模型训练方法及装置。其中，用户样本集包括高风险用户样本和低风险用户样本及其类别标签，高风险用户样本属于小样本。在该方法中，从用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本，从用户样本集中按照偏向高风险用户样本的方式对样本抽样，得到抽样用户样本；基于风控场景中高风险用户数量小于低风险用户数量的风险用户特点，确定第一数量占比，以第一数量占比为平均值确定符合风险用户特点的第一概率分布，按照第一概率分布确定属于观测用户样本的第一因子。这样，基于第一因子、观测用户样本与抽样用户样本及其相应的样本标签，确定插值用户样本以及对应的插值标签。权利要求书2页说明书11页附图3页 CN 115545124 A 2022.12.30 CN 115545124 A 1.一种样本不平衡场景下的风控模型训练方法，用于利用用户样本集训练所述风控模型，所述风控模型用于识别高风险用户，所述用户样本集包括高风险用户样本和低风险用户样本，并且所述高风险样本的总数量小于所述低风险用户样本的总数量；所述方法包括：从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本；从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样，得到抽样用户样本；基于风控场景中高风险用户数量小于低风险用户数量的风险用户特点，确定第一数量占比，以使得所述第一数量占比基于所述高风险用户样本的总数量与所述用户样本集的总样本数量的比值得到；以所述第一数量占比为平均值确定符合所述风险用户特点的第一概率分布，按照所述第一概率分布确定属于所述观测用户样本的第一因子的取值；其中，所述第一因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重；基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签，确定插值用户样本以及对应的插值标签，使得所述插值用户样本的样本特征基于所述第一因子倾向于高风险用户的用户特征，所述插值标签基于所述第一因子倾向于高风险标签；利用所述插值用户样本以及对应的插值标签，对所述风控模型进行训练。 2.根据权利要求1所述的方法，所述从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本的步骤，包括：从所述用户样本集中随机确定观测用户样本；或者，按照既定顺序依次从所述用户样本集中选择样本确定为观测用户样本。 3.根据权利要求1所述的方法，所述从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样的步骤，包括：从所述用户样本集中依据不同类别标签对样本均匀抽样。 4.根据权利要求1所述的方法，所述第一概率分布包括贝塔分布，其中所述贝塔分布的不同参数分别基于所述第一数量占比和第二数量占比确定；所述第二数量占比基于所述低风险用户样本的总数量与所述总样本数量的比值得到。 5.根据权利要求1所述的方法，当确定所述第一因子的取值时，还包括：基于所述第一因子的取值，确定属于所述抽样用户样本的第二因子的取值；所述第二因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重。 6.根据权利要求5所述的方法，所述第一因子的取值在0到1之间；所述确定属于所述抽样用户样本的第二因子的取值的步骤，包括：将1与所述第一因子的取值的差值确定为所述第二因子的取值。 7.根据权利要求5所述的方法，所述确定插值用户样本以及对应的插值标签的步骤，包括：基于所述第一因子的取值、所述第二因子的取值对所述观测用户样本和所述抽样用户样本进行线性插值，得到插值用户样本；基于所述第一因子的取值、所述第二因子的取值对所述观测用户样本的类别标签和所述抽样用户样本的类别标签进行线性插值，得到插值标签。 8.根据权利要求1所述的方法，所述确定插值用户样本以及对应的插值标签的步骤，包权　利　要　求　书 1/2 页 2 CN 115545124 A 2括：利用线性插值方式，基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签，确定插值用户样本以及对应的插值标签。 9.根据权利要求1所述的方法，在对所述风控模型进行训练完成后，还包括：利用所述用户样本集包含的高风险用户样本和低风险用户样本，继续对所述风控模型进行训练。 10.一种样本不平衡场景下的风控模型训练装置，用于利用用户样本集训练所述风控模型，所述风控模型用于识别高风险用户，所述用户样本集包括高风险用户样本和低风险用户样本，并且所述高风险样本的总数量小于所述低风险用户样本的总数量；所述装置包括：样本确定模块，配置为从所述用户样本集中按照不偏向高风险用户样本的方式确定观测用户样本；样本抽样模块，配置为从所述用户样本集中按照偏向高风险用户样本的方式对样本抽样，得到抽样用户样本；占比确定模块，配置为基于风控场景中高风险用户数量小于低风险用户数量的风险用户特点，确定第一数量占比，以使得所述第一数量占比基于所述高风险用户样本的总数量与所述用户样本集的总样本数量的比值得到；因子确定模块，配置为以所述第一数量占比为平均值确定符合所述风险用户特点的第一概率分布，按照所述第一概率分布确定属于所述观测用户样本的第一因子的取值；其中，所述第一因子是在所述观测用户样本与所述抽样用户样本之间插值时使用的插值权重；样本插值模块，配置为基于所述第一因子、所述观测用户样本与所述抽样用户样本及其相应的样本标签，确定插值用户样本以及对应的插值标签，使得所述插值用户样本的样本特征基于所述第一因子倾向于高风险用户的用户特征，所述插值标签基于所述第一因子倾向于高风险标签；风控训练模块，配置为利用所述插值用户样本以及对应的插值标签，对所述风控模型进行训练。 11.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1 ‑9中任一项所述的方法。 12.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1 ‑9中任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115545124 A 3

专利 样本不平衡场景下的样本增量、模型训练方法及装置

专利样本不平衡场景下的样本增量、模型训练方法及装置