一篇搞懂隐私计较中的联邦进修(上)

摘要:春联邦进修作一个劈头但只管全面的先容,着重先容联邦进修要领的流变,理会落地应用中需要留意的质量与安详问题,并对相关应用场景提出针对性的发起。

要害词:联邦进修;数据安详;多方安详计较;同态加密;模子安详;合规

中图分类号:TP309.7  文献标识码:A

Federated Learning: issues analysis and advices to practical applications

GUO WJ

(Express (Hangzhou) Technology Service Company Limited, Shanghai 200080)

ABSTRACT: A brief yet comprehensive introduction to Federated Learning, with focus on the historical development of its methods, the qualitative and security issues. Based on these, advices on the practical applications are given.

KEY WORDS: Federated Learning; data security; MPC; homomorphic encryption; model security; compliance.

联邦进修技能本日已经成为担保隐私掩护、数据安详合规的重要技妙手段。出格是在金融付出规模,人们已经在努力摸索应用联邦进修技能去掩护贸易机要、用户隐私以及满意禁锢和合规要求的大概性。

但作为一门新技能,联邦进修还不足成熟;其合用的场景,以及每个场景中相应所面对的安详问题以及范围性,尚有待梳理。为此,本文先容联邦进修的根基底层机制,梳理其成长源流,并就个中涉及的各类质量与安详问题、落地应用留意事项提出详细发起。出格地,本文区分了各类威胁模子下的数据安详需求,以及提出应对数据投毒和模子投毒需要团结利用可信计较技能。

本文组织如下:第一节先容联邦进修的汗青沿革与近况,以交待联邦进修要领的成长脉络,后续各节别离先容需要在应用中留意的模子质量问题、数据安详问题、模子安详问题,最后给出落地应用发起。

1 联邦进修的汗青沿革与近况

1.1 前传:漫衍式进修

进入21世纪后,由于搜索的需要,以及在天量数据和海量算力加持下,呆板进修技能获得了发达成长。呆板进修的基本练习算法是梯度下降要领。可是梯度下降算法练习速度出格慢,因此在梯度下降要领的基本上成长出更多的变种,限于篇幅纷歧一先容。

跟着数据量的进一步增大,即便应用这些变种,练习也很难会合在一台呆板完成。因此,成长出了漫衍式练习要领。个中值得一提的是参数殽杂要领。这并不是一种详细的呆板进修算法,如同厥后呈现的联邦进修要领一样,它是一种要领框架。在参数殽杂要领的框架中,数据集被分发到计较集群,各个节点利用所分发的数据别离练习,再将功效举办加权殽杂而非简朴取均值以获得功效模子[1]。

然而,这种要领不能用于损失函数为非凸的练习。2010年,McDonald等提出利用遍历性参数殽杂要领来担保漫衍式练习算法在非凸损失函数上的收敛性[2]。其区别在于,各个节点之前所用要领为将每个数据集练习到收敛今后再举办参数殽杂,而遍历性参数殽杂要领例强调尽早殽杂,即在所分发数据集上完成一轮练习后立即殽杂参数,并将殽杂好的参数分发给集群节点,作为下一轮练习的基本模子。两者的伪代码如图表 1所示,个中黑体部门为两种要领的不同。

一篇搞懂隐私计较中的联邦进修(上)-第1张图片-OKX官网

图表 1 左:参数殽杂要领;右:遍历性参数殽杂要领

遍历性参数殽杂要领可以或许有效操作集群计较机获得显著加快,作为一种漫衍式进修要领很是高效。然而,尽量漫衍式进修浮现了一部门“非中心化”特性,但主要着眼于效率改造,一方面并未思量到数据集不服衡、非独立同漫衍(Non-IID,Non Independent Identical Distribution)的环境导致合用范畴受限,另一方面则未能办理隐私可能贸易机要记挂。这些缺失导致了联邦进修的崛起。

关于练习算法的收敛性,我们在后头还会看到其它研究提及。这里需要先指出的是,算法可以或许收敛仅指练习进程中预测误差会越来越小,直到无法可能无须继承改造,这时可以遏制练习。可是,差异的练习算法、差异的数据漫衍,都有大概导致联邦进修框架下的进修算法收敛到差异的模子或参数,能收敛并不便是必然能获得最优化的功效(以会合式练习为基准,下同)。

1.2 横向联邦进修

漫衍式进修的主要驱动因素为练习效率。移动互联网则对呆板进修提出了隐私掩护挑战。一个典范的例子是思量如何练习一个输入法预测模子。假如继承沿用过往将数据会合到一处的练习范式,势必招致隐私记挂(不管有无回收漫衍式进修框架)。即便意图练习预测模子的机构(如某个手机系统商)并不规划将所收集的用户输入法习惯数据用于其它用途,它依然面对如何安详打点这些数据的问题,并需要对大概的数据泄密包袱相应的法令责任。