(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210470050.0
(22)申请日 2022.04.28
(71)申请人 北京百度网讯科技有限公司
地址 100085 北京市海淀区上地十街10号
百度大厦2层
(72)发明人 彭胜波 周吉文
(74)专利代理 机构 北京鸿德 海业知识产权代理
有限公司 1 1412
专利代理师 刘振龙
(51)Int.Cl.
G06N 20/00(2019.01)
G06F 21/62(2013.01)
G06K 9/62(2022.01)
G06N 3/02(2006.01)
(54)发明名称
基于特征的分箱处理方法、 装置、 设备及介
质
(57)摘要
本公开提供了一种基于特征的分箱处理方
法、 装置、 设备及介质, 涉及人工智能等技术领
域, 可以应用在联邦学习等分布式数据处理场景
中。 具体实现方案为: 获取分箱处理所要参考的
特征; 基于联邦学习系统中各参与方节点中特征
的字段以及特征对应的样本数据的分布情况, 确
定联邦学习的场景; 基于各参与方节 点上的样本
数据中特征对应的特征值的分布属性或者预设
的分箱需求, 并参考联邦学习的场景, 确定分箱
类型; 采用分箱类型, 对联邦学习系统中的各参
与方节点上的所述特征进行分箱处理。 本公开,
能够提供一种可以适用于多参与节点的联邦学
习系统中的、 基于特征的分箱方案, 能够对联邦
学习系统中的各参与方节点中的特征进行准确、
有效地分箱处 理。
权利要求书7页 说明书18页 附图9页
CN 114841371 A
2022.08.02
CN 114841371 A
1.一种基于特 征的分箱处 理方法, 包括:
获取分箱处 理所要参 考的特征;
基于联邦学习系统中各参与方节点中所述特征的字段以及所述特征对应的样本数据
的分布情况, 确定联邦学习的场景;
基于各所述参与方节点上的样本数据中所述特征对应的特征值的分布属性或者预设
的分箱需求, 并参 考所述联邦学习的场景, 确定分箱类型;
采用所述分箱类型, 对所述联邦学习系统中的各所述参与 方节点上的所述特征进行分
箱处理。
2.根据权利要求1所述的方法, 其中, 基于联邦学习系统中各参与 方节点中所述特征的
字段以及所述特 征对应的样本数据的分布情况, 确定联邦学习的场景, 包括:
若不同所述参与节点中的不同标识的所述样本数据中包括的特征字段的重叠比例大
于预设比例阈值, 确定所述联邦学习的场景为横向联邦学习; 或者
若所述联邦学习系统中不同所述参与方节点中包括的样本数据的标识重叠比例大于
所述预设比例阈值, 确定所述联邦学习的场景为纵向联邦学习。
3.根据权利要求2所述的方法, 其中, 确定所述联邦学习的场景为横向联邦学习之后,
采用所述分箱类型, 对所述联邦学习系统中的各所述参与方节点上的所述特征进 行分箱处
理之前, 所述方法包括:
对所述联邦学习系统中不同所述参与方节点中包括的所有样本数据进行特征对齐处
理; 或
确定所述联邦学习的场景为纵向联邦学习之后, 采用所述分箱类型, 基于所述特征对
所述联邦学习 系统中的各 所述参与方节点上的特 征值进行分箱处 理之前, 所述方法包括:
对所述联邦学习系统中不同所述参与方节点中包括的所有样本数据进行样本对齐处
理。
4.根据权利要求3所述的方法, 其中, 基于各所述参与 方节点上的样本数据中所述特征
对应的特征值的分布属 性或者预设的分箱需求, 并参考所述联邦学习的场景, 确定分箱类
型, 包括:
若所述联邦学习的场景为横向联邦学习, 所述联邦学习系统中各所述参与 方节点上的
样本数据中所述特 征对应的特 征值分布均匀, 确定所述分箱类型为横向等宽分箱;
若所述联邦学习的场景为横向联邦学习, 所述联邦学习系统中各所述参与 方节点上的
样本数据中所述特征对应的特征值集中分布在预设的多个区间内, 确定所述分箱类型为横
向等频分箱;
若所述联邦学习的场景为横向联邦学习, 预先设置的分箱需求包括拟合优度和/独立
性检验需求, 确定所述分箱类型为横向卡方分箱; 或者
若所述联邦学习的场景为纵向联邦学习, 预设的分箱需求包括拟合优度和/独立性检
验需求, 确定所述分箱类型为纵向卡方分箱。
5.根据权利要求3所述的方法, 其中, 基于各所述参与 方节点上的样本数据中所述特征
对应的特征值的分布属 性或者预设的分箱需求, 并参考所述联邦学习的场景, 确定分箱类
型, 包括:
基于各所述参与 方节点上的样本数据中所述特征对应的特征值的分布属性和/或预设权 利 要 求 书 1/7 页
2
CN 114841371 A
2的分箱需求, 并参考所述联邦学习的场景, 采用预先训练的分箱类型确定模型, 确定所述分
箱类型。
6.根据权利要求4或5所述的方法, 其中, 采用所述分箱类型, 对所述联邦学习系统中的
各所述参与方节点上的所述特 征进行分箱处 理, 包括:
若所述分箱类型为横向等宽分箱时, 在各所述参与 方节点本地计算所述特征对应的所
述特征值的最大值和最小值;
通过多方安全计算技术, 基于各所述参与方本地的所述特征值的最大值和最小值, 在
各所述参与方节点本地获取 所述特征值的全局最大值和全局最小值;
在各所述参与方节点本地, 根据预设的分箱数目、 以及所述特征值的全局最大值和全
局最小值, 确定各 所述分箱的分箱点对应的特 征值, 得到分箱点 集合;
在各所述参与方节点本地, 根据所述分箱点 集合, 对本地的所述特 征值进行分箱处 理。
7.根据权利要求4或5所述的方法, 其中, 采用所述分箱类型, 对所述联邦学习系统中的
各所述参与方节点上的所述特 征进行分箱处 理, 包括:
若所述分箱类型为横向等频分箱时, 在各所述参与 方节点本地按照所述特征对应的特
征值的大小对本地的各 所述特征值进行排序; 并统计样本数目;
在各所述参与方节点本地, 基于预设的分箱数目、 所述样本数目, 按照等频分箱的方
式, 确定各 所述分箱的分箱点对应的所述特 征值, 得到 本地的分箱点 集合;
在各所述参与方节点本地, 通过多方安全计算技术, 基于各参与方节点的所述分箱点
集合, 更新本地的所述分箱点 集合;
在各所述参与方节点本地, 根据更新的所述分箱点集合, 对本地的所述特征值进行分
箱处理。
8.根据权利要求7所述的方法, 其中, 在各所述参与方节点本地, 通过多方安全计算技
术, 基于各参与方节点的所述分箱点 集合, 更新本地的所述分箱点 集合包括:
在各所述参与方节点本地, 通过多方安全计算技术, 基于各参与方节点的所述分箱点
集合中相同频率的各分箱点对应的最大特征值和最小 特征值, 获取对应的分箱 点的参考特
征值;
在各所述参与方节点本地, 根据各所述分箱点的参考特征值, 重新统计各所述分箱 的
特征值的数目;
在各所述参与方节点本地, 基于重新统计的各所述分箱 的特征值的数目、 各所述分箱
点的全局特征值、 所述最大特征值、 所述最小特征值、 所述预设的分箱数目以及所述样 本数
目, 对本地的所述分箱点 集合中各所述分箱点对应的特 征值进行 更新。
9.根据权利要求8所述的方法, 其中, 在各所述参与方节点本地, 通过多方安全计算技
术, 基于各参与方节点的所述分箱 点集合, 更新本地的所述分箱 点集合之后, 在各所述参与
方节点本地, 根据更新的所述分箱点集合, 基于所述特征对本地的所述特征值进行分箱处
理之前, 所述方法还 包括:
检测并确定更新后的所述分箱点集合中各所述分箱点对应的特征值, 相对于更新前的
所述分箱点的特 征值的绝对值 误差小于预设阈值。
10.根据权利要求8所述的方法, 其中, 所述方法还 包括:
若更新后的所述分箱点集合中各所述分箱点的特征值, 相对于更新前的对应的所述分权 利 要 求 书 2/7 页
3
CN 114841371 A
3
专利 基于特征的分箱处理方法、装置、设备及介质
文档预览
中文文档
35 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共35页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:39:25上传分享