中国科技产业网
楚留香
您当前的位置:中国科技产业网 > 资讯

梯度会走漏练习数据MIT新方法从梯度盗取练习数据只需几步

放大字体  缩小字体 2019-12-12 12:10:07  阅读:1996 作者:责任编辑NO。姜敏0568

机器之心发布

作者:Ligeng Zhu等

梯度沟通是现代多机练习常用的通讯办法(分布式练习,联邦学习)。长期以来,人们以为梯度是能够安全同享的,即练习数据不会因梯度沟通而走漏。可是 MIT 的一项研讨标明,隐私的练习数据能够终究靠同享的梯度来获取。

研讨人员将此命名为深度梯度走漏(Deep Leakage from Gradients),并在计算机视觉和自然言语处理使命进步行了验证。试验成果标明,他们的进犯比曾经的办法要强大得多,在各种数据集和使命上,DLG 只需几个梯度进程即可彻底康复练习数据。关于图画,他们的办法能轻松完成像素(pixel)等级的康复;关于文本,能够到达词条(token)等级的匹配。

该论文现已被 NeurIPS 2019 承受。研讨者期望经过这篇作业引起咱们的警觉并重新考虑梯度的安全性。他们还在论文中评论了避免这种深度走漏的几种或许战略,其间最有用的防护办法是梯度紧缩

网站:https://dlg.mit.edu

论文:https://arxiv.org/abs/1906.08935

此外,他们还将在 NeurIPS 2019 大会上介绍这项作业。

布景

在协同学习 (collabrative learning) 和联邦学习 (federated learning) 中,每个用户的数据一直储存在本地,仅有模型的梯度在不同设备之前传达。这类算法不需求将数据会集到一处,能够在维护用户隐私的一起,也让模型从海量数据中获益。例如多家医院能够一起练习一个医疗模型而无需同享患者的医疗数据。

可是,「梯度同享」计划是否真的能够维护参与者的私家数据?在大多数状况下,人们以为梯度是能够安全同享的:因为数值方式的梯度并没有直接包括有意义的练习数据。最近的一些研讨指出,梯度提醒了练习数据的某些特点(例如是否戴眼镜)。在这篇文章中,研讨者考虑了一个更具应战性的事例:咱们咱们能够从梯度中盗取完好练习数据吗?传统观念以为答案是否定的,但 MIT 的研讨标明这其实便是可行的。

与之前研讨中的弱进犯(运用类标签的特点揣度和生成模型)比较,这种深度梯度走漏是第一次被评论并给现有的多节点机器学习体系带来了应战。如果是带参数服务器(Parameter server)的练习(下图左边),中心服务器能够盗取一切参与者的隐私数据。关于无参数服务器的练习(下图右侧),状况乃至更糟,因为任何参与者都能够盗取其相邻节点的练习数据。研讨者在视觉(图画分类)和言语使命(荫蔽言语模型)上的验证了进犯的有用性。在各种数据集和使命上,DLG 只需几个梯度进程即可彻底康复练习数据。

办法

在这项作业中,研讨者提出深度梯度走漏算法(DLG):揭露的梯度会走漏个人的隐私数据。他们提出了一种优化算法,只需几回迭代即可从梯度中取得练习输入和标签。

为了进行进犯,研讨者首要随机生成一对「虚拟的」输入和标签(dummy data and label),然后履行一般的前向传达和反向传达。从虚拟数据导出虚拟梯度之后,他们没有像传统优化那样更新模型权重,而是更新虚拟输入和标签,以最大程度地减小虚拟梯度和实在梯度之间的差异。当进犯完毕后,私家数据便彻底暴露了出来。有必要留意一下的是,整一个完好的进程不需求练习数据集的任何额定信息。

上图中的 || w' - w|| 关于虚拟数据和标签可导,因而能够正常的运用规范梯度下降办法来优化。请留意,此优化需求二阶导数(梯度的导数)。因而假定模型是两次可微。这适用于大多数现代机器学习模型(例如大多数神经网络)和使命。完成该算法并不难,只需挑选的渠道支撑二阶导数即可。此处,研讨者挑选 PyTorch 作为试验渠道,并供给一个仅需 20 行代码的完成

成果

研讨者在常用的图片分类使命和言语模型上测试了该深度走漏的作用。在图片分类使命上,他们观察到具有洁净布景(MNIST)的单色图画最简单康复,而像人脸这样的杂乱图画则需求更多的迭代来康复(下图)。优化完成后,虽然有一些可见的噪声点,但康复成果根本与原始数据相同。

在视觉上,他们比较了其他走漏算法与 DLG。从前办法 (Melis et al) 根据 GAN 模型。在 SVHN 上,虽然走漏的成果还可模糊识别出是数字「9」,但这已不是原始练习图画。LFW 的状况更糟,CIFAR 上则彻底失利。DLG 展示的走漏程度远远强于以往的「浅」走漏算法。

在言语模型上,研讨者选用最近盛行的 BERT 模型作为试验渠道。不同于图画模型的接连输入,言语模型的文字输入往往是离散的。因而他们将 DLG 应用在词条(Token)上,在复原出词条之后再去反向揣度原句的构成。他们从 NeurIPS 主页上选取了三句话作为试验目标。

与视觉使命类似,他们从随机初始化的嵌入开端:迭代 0 处的反向查询成果毫无意义。在优化进程中,虚拟词条发生的梯度逐步向原始词条发生的梯度挨近。在之后的迭代中,部分原句中的单词逐步呈现。在下表的例 3 中,在第 20 轮迭代中,呈现了「annual conference」,在第 30 轮迭代中,得到了与原始文本十分类似的语句。虽然有少部分因为分词自身歧义引起的不匹配,可是原始练习数据的主要内容现已彻底走漏。

防护

深度梯度走漏(DLG)的进犯程度是之前从未评论过的。因而,MIT 的研讨者也测试了几种防护的办法。

他们们首要试验了梯度扰动(Noisy gradients)并测验了高斯噪声(Gaussian noise)和拉普拉斯噪声(Laplacian noise)。如下图所示,防护并不是很抱负:只需在噪声大到使准确率下降时(> 10^-2),该战略才能够成功防护深度梯度走漏(DLG)。

他们也测试了低精度梯度关于深度梯度走漏(DLG)的防护作用。惋惜的是两种常用单精度格局(IEEE Float 16, B Float 16)都不能阻挠走漏。8-bit 数据虽然能阻挠该走漏,可是模型的功能却也显着下降。在多种测验后,他们发现最有用的防护办法是梯度紧缩,只需稀少性大于 20% 即可成功防护。DGC(Lin 2017)的研讨标明能够在梯度的稀少性到达 99% 以上时,仍旧练习出功能附近的模型。因而,紧缩梯度是一种对立深度梯度走漏(DLG)的有用手法。

他们将在 NeurIPS 2019 大会上介绍这项作业,Poster Session 将在温哥华当地时间 5pm 到 7pm 在 East Exhibition Hall B + C 154 号展位进行,欢迎感兴趣的教师、同学、工业界搭档前去沟通。

本文为机器之心发布,转载请联络本大众号取得授权。

------------------------------------------------

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!