(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210539921.X
(22)申请日 2022.05.18
(71)申请人 广州大学
地址 510006 广东省广州市大 学城外环西
路230号
(72)发明人 王绍蔚 杨蕊琳 余时宇 钟裕森
(74)专利代理 机构 广州高炬知识产权代理有限
公司 44376
专利代理师 孙明科
(51)Int.Cl.
G06F 21/62(2013.01)
G06F 21/71(2013.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种样本级隐私保护的知识蒸馏方法
(57)摘要
本发明涉及知识蒸馏 技术领域, 公开了一种
样本级隐私保护的知识蒸馏方法, 在客户端部署
用于衡量隐私样本与查询样本特征相似度的模
型Rep,将Dpiv数据集存储在客户端; 在服务器端
对Dpub中的数据进行聚类, 并将S个聚类中心设
为查询样本; 客户端在thereverse ‑knn的规则
下, 将隐私样本与K个查询样本相关联, 并用BSVS
机制生成标签信息, 加噪后发往服务器; 服务器
通过汇总各客户端反馈的标签信息, 生成查询样
本的硬标签和软标签。 本发明通过一种改进后的
局部差分隐私机制, 首次证明了在满足局部差分
隐私的情况下, 对于单个私有记录做知识提取的
方法是可行的, 并在实验 过程中体 现了显著的准
确性。
权利要求书1页 说明书4页 附图2页
CN 114969813 A
2022.08.30
CN 114969813 A
1.一种样本级隐私保护的知识蒸馏方法, 其特 征在于, 包括以下步骤:
S1: 在客户端部署用于衡量隐私样本与查询样本特征相似度的模型Rep,将Dpiv数据 集
存储在客户端;
S2: 在服务器端对Dpub中的数据进行聚类, 并将S个聚类中心设为查询样本Q=[q1,
q2,...,qs];
S3: 客户端在the reverse‑knn的规则下, 将隐私样本与K个查询样本相关联, 并用BSVS
机制生成标签信息, 加噪后发往服 务器;
S4: 服务器通过汇总各客户端反馈的标签信息, 生成查询样本的硬标签和软 标签。
2.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 数据集主要是
训练数据集, 训练数据集分为隐私数据集(Dpiv)和公共数据集(Dpub)两 部分。
3.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 隐私数据存储
在各个客户端, 使用Rep模型通过隐私样本与查询样本的特征向量之间的欧式距离来衡量
它们拥有同类标签的可能性。
4.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 对公共数据集
进行聚类, 并将聚类中心作为 查询样本发往客户端添加标签。
5.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 将训练数据集
以非监督的方式聚为S个簇, 并将聚簇中心Q =[q1,q2,...,qs]设为查询样本 。
6.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 将查询样本Q
=[q1,q2,...,qs]发送至各个客户端, 客户端按照reverse k‑NN的规则将单个隐私样本与
距离最近的K个查询样本相关联, 并将得到的标签信息用
添加拉普拉斯噪
声后发往客户端。
7.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 服务器将 从各
个客户端接受的标签信息进行聚合, 并用
公式得出硬标签, 同时使用
公式获得 软标签。权 利 要 求 书 1/1 页
2
CN 114969813 A
2一种样本级隐私 保护的知识 蒸馏方法
技术领域
[0001]本发明涉及 知识蒸馏技 术领域, 具体涉及一种样本级隐私保护的知识蒸馏方法。
背景技术
[0002]随着知识蒸馏已成为一种可扩展且有效的隐私保护机器学习方法, 它的一些弊端
也逐渐的显露出来, 例如在模型级的操作中会消 耗隐私, 并且每一个蒸馏查询都会消 耗客
户机的隐私。 在当前已知的知识蒸馏范式中, 有个常见的问题, 如每一个被回答的查询都会
导致一个客户机的所有记录的隐私损失, 这是由于客户端本地训练的模型是根据这些原始
记录构建的, 查询的结果会受到所有单个记录的影响。 这种粗劣的客户端级的隐私消 耗浪
费了隐私预算, 且不能从每 个记录中提取到有效的知识。
发明内容
[0003]本发明的目的在于提供一种样本级隐私保护的知识蒸馏方法, 通过一种改进后的
局部差分隐私机制, 解决背景技 术中的问题。
[0004]为实现上述目的, 本发明提供如下技 术方案:
[0005]一种样本级隐私保护的知识蒸馏方法, 包括以下步骤:
[0006]S1: 在客户端部署用于衡量隐私样本与查询样本特征相似度的模型Rep,将Dpiv数
据集存储在客户端;
[0007]S2: 在服务器端对Dpub中的数据进行聚类, 并将S个聚类中心设为查询样本Q=
[q1,q2,...,qs];
[0008]S3: 客户端在the reverse‑knn的规则下, 将隐私样本与K个查询样本相关联, 并用
BSVS机制生成标签信息, 加噪后发往服 务器;
[0009]S4: 服务器通过汇总各客户端反馈的标签信息, 生成查询样本的硬标签和软 标签。
[0010]优选的, 数据集主要是训练数据集, 训练数据集分为隐私数据集(Dpiv)和公共数
据集(Dpub)两 部分。
[0011]优选的, 隐私数据 存储在各个客户端, 使用Rep模型通过隐私样本与查询样本的特
征向量之间的欧式距离来衡量它 们拥有同类标签的可能性。
[0012]优选的, 对公共数据集进行聚类, 并将聚类中心作为查询样本发往客户端添加标
签, 由于公共数据集(Dpub)中未被标记的样本数量庞大, 若将其全部发送至客户端添加标
签, 在通信、 计算、 隐私保护 方面都代价较大, 在本发明中, 将Dpub集以非监督的方式聚为S
个簇, 并将聚簇中心Q=[q1,q2,...,qs]设为查询样本。 由于S<<number(Dpub),标记公共样
本的代价大 大减小。
[0013]优选的, 将训练数据集以非监督的方式聚为S个簇, 并将聚簇中心Q=[q1,q2,...,
qs]设为查询样本 。
[0014]优选的, 将查询样本Q=[q1,q2,...,qs]发送至各个客户端, 客户端按照reverse
k‑NN的规则将单个隐私样本与距离最近的K个查询样本相关联, 并将得到的标签信息用说 明 书 1/4 页
3
CN 114969813 A
3
专利 一种样本级隐私保护的知识蒸馏方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-07 12:39:09上传分享