水利行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210539921.X (22)申请日 2022.05.18 (71)申请人 广州大学 地址 510006 广东省广州市大 学城外环西 路230号 (72)发明人 王绍蔚 杨蕊琳 余时宇 钟裕森  (74)专利代理 机构 广州高炬知识产权代理有限 公司 44376 专利代理师 孙明科 (51)Int.Cl. G06F 21/62(2013.01) G06F 21/71(2013.01) G06K 9/62(2022.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种样本级隐私保护的知识蒸馏方法 (57)摘要 本发明涉及知识蒸馏 技术领域, 公开了一种 样本级隐私保护的知识蒸馏方法, 在客户端部署 用于衡量隐私样本与查询样本特征相似度的模 型Rep,将Dpiv数据集存储在客户端; 在服务器端 对Dpub中的数据进行聚类, 并将S个聚类中心设 为查询样本; 客户端在thereverse ‑knn的规则 下, 将隐私样本与K个查询样本相关联, 并用BSVS 机制生成标签信息, 加噪后发往服务器; 服务器 通过汇总各客户端反馈的标签信息, 生成查询样 本的硬标签和软标签。 本发明通过一种改进后的 局部差分隐私机制, 首次证明了在满足局部差分 隐私的情况下, 对于单个私有记录做知识提取的 方法是可行的, 并在实验 过程中体 现了显著的准 确性。 权利要求书1页 说明书4页 附图2页 CN 114969813 A 2022.08.30 CN 114969813 A 1.一种样本级隐私保护的知识蒸馏方法, 其特 征在于, 包括以下步骤: S1: 在客户端部署用于衡量隐私样本与查询样本特征相似度的模型Rep,将Dpiv数据 集 存储在客户端; S2: 在服务器端对Dpub中的数据进行聚类, 并将S个聚类中心设为查询样本Q=[q1, q2,...,qs]; S3: 客户端在the  reverse‑knn的规则下, 将隐私样本与K个查询样本相关联, 并用BSVS 机制生成标签信息, 加噪后发往服 务器; S4: 服务器通过汇总各客户端反馈的标签信息, 生成查询样本的硬标签和软 标签。 2.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 数据集主要是 训练数据集, 训练数据集分为隐私数据集(Dpiv)和公共数据集(Dpub)两 部分。 3.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 隐私数据存储 在各个客户端, 使用Rep模型通过隐私样本与查询样本的特征向量之间的欧式距离来衡量 它们拥有同类标签的可能性。 4.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 对公共数据集 进行聚类, 并将聚类中心作为 查询样本发往客户端添加标签。 5.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 将训练数据集 以非监督的方式聚为S个簇, 并将聚簇中心Q =[q1,q2,...,qs]设为查询样本 。 6.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 将查询样本Q =[q1,q2,...,qs]发送至各个客户端, 客户端按照reverse  k‑NN的规则将单个隐私样本与 距离最近的K个查询样本相关联, 并将得到的标签信息用 添加拉普拉斯噪 声后发往客户端。 7.根据权利要求1所述的样本级隐私保护的知识蒸馏方法, 其特征在于: 服务器将 从各 个客户端接受的标签信息进行聚合, 并用 公式得出硬标签, 同时使用 公式获得 软标签。权 利 要 求 书 1/1 页 2 CN 114969813 A 2一种样本级隐私 保护的知识 蒸馏方法 技术领域 [0001]本发明涉及 知识蒸馏技 术领域, 具体涉及一种样本级隐私保护的知识蒸馏方法。 背景技术 [0002]随着知识蒸馏已成为一种可扩展且有效的隐私保护机器学习方法, 它的一些弊端 也逐渐的显露出来, 例如在模型级的操作中会消 耗隐私, 并且每一个蒸馏查询都会消 耗客 户机的隐私。 在当前已知的知识蒸馏范式中, 有个常见的问题, 如每一个被回答的查询都会 导致一个客户机的所有记录的隐私损失, 这是由于客户端本地训练的模型是根据这些原始 记录构建的, 查询的结果会受到所有单个记录的影响。 这种粗劣的客户端级的隐私消 耗浪 费了隐私预算, 且不能从每 个记录中提取到有效的知识。 发明内容 [0003]本发明的目的在于提供一种样本级隐私保护的知识蒸馏方法, 通过一种改进后的 局部差分隐私机制, 解决背景技 术中的问题。 [0004]为实现上述目的, 本发明提供如下技 术方案: [0005]一种样本级隐私保护的知识蒸馏方法, 包括以下步骤: [0006]S1: 在客户端部署用于衡量隐私样本与查询样本特征相似度的模型Rep,将Dpiv数 据集存储在客户端; [0007]S2: 在服务器端对Dpub中的数据进行聚类, 并将S个聚类中心设为查询样本Q= [q1,q2,...,qs]; [0008]S3: 客户端在the  reverse‑knn的规则下, 将隐私样本与K个查询样本相关联, 并用 BSVS机制生成标签信息, 加噪后发往服 务器; [0009]S4: 服务器通过汇总各客户端反馈的标签信息, 生成查询样本的硬标签和软 标签。 [0010]优选的, 数据集主要是训练数据集, 训练数据集分为隐私数据集(Dpiv)和公共数 据集(Dpub)两 部分。 [0011]优选的, 隐私数据 存储在各个客户端, 使用Rep模型通过隐私样本与查询样本的特 征向量之间的欧式距离来衡量它 们拥有同类标签的可能性。 [0012]优选的, 对公共数据集进行聚类, 并将聚类中心作为查询样本发往客户端添加标 签, 由于公共数据集(Dpub)中未被标记的样本数量庞大, 若将其全部发送至客户端添加标 签, 在通信、 计算、 隐私保护 方面都代价较大, 在本发明中, 将Dpub集以非监督的方式聚为S 个簇, 并将聚簇中心Q=[q1,q2,...,qs]设为查询样本。 由于S<<number(Dpub),标记公共样 本的代价大 大减小。 [0013]优选的, 将训练数据集以非监督的方式聚为S个簇, 并将聚簇中心Q=[q1,q2,..., qs]设为查询样本 。 [0014]优选的, 将查询样本Q=[q1,q2,...,qs]发送至各个客户端, 客户端按照reverse   k‑NN的规则将单个隐私样本与距离最近的K个查询样本相关联, 并将得到的标签信息用说 明 书 1/4 页 3 CN 114969813 A 3

PDF文档 专利 一种样本级隐私保护的知识蒸馏方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种样本级隐私保护的知识蒸馏方法 第 1 页 专利 一种样本级隐私保护的知识蒸馏方法 第 2 页 专利 一种样本级隐私保护的知识蒸馏方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:09上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。