基于区块链与联邦学习技术的数据交易平台

基于区块链与联邦学习技术的数据交易平台 基于区块链与联邦学习技术的数据交易平台-第1张图片-欧易OKX官网

达朴汇联

发布时间: 2022-03-22 06:57关注、

 

符合法律法规、数据伦理约束的大规模数据交换是数据要素化的重要条件基础。联邦学习作为一种新兴技术解决了数据交换的隐私问题,得到学术界高度关注,但其具体方法尚不大成熟,距离大规模应用尚有距离。区块链和联邦学习的协作,简化了数据分布场景、提供了学习过程的追溯,实现了数据交易的“事先评估”。基于区块链的信任媒介作用,可以通过区块链系统记录训练参数、模型数据、数据调用过程等,实现多方合作的可信隐私计算平台。在不暴露具体数据的前提下,通过神经网络的模型、梯度等数据共享,实现数据蕴含的知识价值传递,从而打破既有条件下的数据孤岛,构建数据价值链条。

 

 

(一)背景

 

 

符合法律和伦理约束的数据交易环境和机制是数据生产要素化的重要条件。2014年起,我国陆续开始建立了数据交易中心,在2015年至2017年间,中国的数据交易中心进入密集建设阶段。由于国家法律法规对数据活动监管的逐渐严厉、企业组织对于数据资产管理的日益重视、数据主体对数据隐私保护的需要更加强烈、数据拥有权在数据转移过程中晦涩不清等诸多原因,围绕数据交易中心的数据交易成果寥寥。相反,基于“社工库”[1]的违法数据交易却层出不穷,大量个人、组织数据隐私遭到泄露,造成了巨大的经济社会损失。随着数据被列为生产要素,数据交易安全问题更加突出。采用区块链为核心技术,我国各数据交易中心陆续建立了数据确权服务平台,从机制上保证了数据主体权益和交易安全。由于区块链技术需要大量计算资源,并且无法从根本上保证大量细节数据的暴露,因此人类迫切需要采用新的技术手段,在保护细节数据的基础上,实现数据价值的转让与传递。

 

 

联合机器学习(联邦学习)是2016年由谷歌提出的一种新的机器学习模型,是在中央服务器或服务提供者编排下的,多个实体进行协作,共同解决机器学习问题的一种机制。与采用数据聚合实现机器学习目标方式不同,每个客户端的数据都存储在本地,不进行交换或者转移[2]。参与联邦学习的实体之间传递的是神经网络模型以及参数,无需传递原始数据本身,可以在不暴露细节数据的基础上,完成数据内含价值挖掘和传递。联邦学习理论复杂,牵涉到机器学习、分布优化、加密、安全、差分隐私、公平性问题、压缩感知、系统学、信息理论…等多种理论。基于横向联邦学习、纵向联邦学习、联邦迁移学习、Split-learning等算法研究与应用场景的研究仍在持续,在医疗、保险、金融等领域有着巨大应用潜力。联邦学习仅仅作为分布式机器学习系统,存在下列问题:联邦学习缺乏身份认证机制,无法保证参与数据交易各方身份真实性;缺少数据交易过程的追溯与鉴证,无法保证数据交易的公正合理;由于第三方无法对原始数据进行观察,无法确认模型以及参数的效果,无法对联邦学习结果予以评估和定价;联邦学习的部署受到算法制约;参与联邦学习各方的设备环境不一致,造成参与各方的协作困难等。

 

 

为解决上述矛盾,则需要采用基于区块链的联邦学习系统构建数据交易平台。

 

 

(二)基于区块链与联邦学习的技术

 

 

基于区块链的联邦学习构建的数据交易平台如图1所示。数据交易平台由区块链系统以及联邦学习系统、数据交易系统三部分组成,围绕着以上系统,多个数据供应商、协调方、算法供应商、数据需求方共同参与数据交易。

 

 

区块链系统作为基础设施,为数据交易提供安全保障,其功能架构如图 2所示。受制于计算资源,区块链仅保存与数据交易相关信息,例如交易各方身份证书、数据访问方式、数据索引、数据交易合同等,而不涉及具体数据的保存和传输,从机制上避免了细节数据的流动,保护了隐秘数据的安全。

 

 

联邦学习系统则提供的数据交易计算环境,基于联邦学习机制,通过分发神经网络模型和参数实现数据供应方共同参与数据挖掘过程,从而达成数据价值共享的目标。联邦学习系统提供机器学习基础设施用于支持联邦横向学习、联邦纵向学习、联邦迁移学习、Split-Learning的部署与分发。

 

 

数据交易系统完成数据交易的注册登记、算法资源管理与分配功能。

 

 

数据供应方、算法供应方、数据需求方分别经协调方组织完成数据交易过程,其典型过程如下:

 

 

步骤一、数据供应方、算法供应商、数据交易协调方、数据需求者向区块链注册,获取身份证书后,获得区块链加密通信链路访问权限,并递交其数据服务内容、算法描述、协调方资质、数据需求描述等信息。

 

 

步骤二、根据数据业务内容,数据供应方、算法供应商、数据需求者构成数据交易干系人群体,向数据交易协调方递交数据交易申请,请求数据交易活动。

 

 

步骤三、数据交易协调方对数据交易各方、交易过程监督,并分配计算资源。协调方通过数据交易系统将交易流水号、交易内容等信息保存到区块链中,向联邦学习系统分配计算资源,协调联邦学习过程。

 

 

步骤四、在数据交易协调方干预下,数据交易各方完成机器学习协作过程,得到具体算法参数模型。在此过程中,可对数据内容质量采用零知识证明(Zero Knowledge Proof)手段进行评估。经评估后结果放置在区块链超级账簿,作为数据交易合同的执行依据。受数据需求方委托,数据供应方在联邦学习系统或者本地执行算法,为数据需求方提供数据服务。

 

 

在基于区块链的联邦学习平台中,保证训练过程中数据隐秘性尤为关键。Chuan Ma等人提出了区块链与联邦学习的协作模型[3]。但在现实的数据交易平台中,原始数据往往集中于数据供应商手中,采用基于Hadoop体系的大数据架构进行管理。因其数据体量巨大,采用区块链存储和管理是不现实的,相应的数据的挖掘计算也必然不会在区块链中进行。

 

 

根据业务需求,数据交易平台中联邦学习与区块链协作模型如图 3所示,其流程如下:

 

 

步骤一、协调方首先通过P2P网络向参与联邦学习的数据供应方分发算法模型,并部署到数据供应商提供的训练节点,算法原型与环境采用了Docker进行封装,有效的解决了参与联邦机器学习各方设备环境不统一的问题。在完成算法系统部署的同时,协调方为数据供应商分配各自区块链代理(数据供应方1 Agent),该代理负责区块链数据块的申请、数据更新日志以及通信管理等任务。

 

 

步骤二、数据供应方采用本地数据在训练节点完成训练任务,每轮训练结束后将梯度数据、超参、加权数据、损失函数等结果更新到本地模型池。

 

 

步骤三、数据供应商根据联邦学习算法定义的聚合规则,对训练参数聚合。目前多采用FedAvg算法完成聚合过程,当满足一定的收敛条件后,训练截止,模型与参数保存至区块链中。

 

 

步骤四、数据供应商完成数据聚合后,在本地生成新的全局模型,并将更新数据上传到区块链。数据供应商代理在区块链中产生新的数据块,保存数据供应商提供的本轮模型参数,数据块产生过程中的挖掘出来的Token,可作为衡量工作量的依据,借助于区块链的共识机制来对更新后的联邦学习参数内容进行来源校验,通过后保存到区块链账簿中。

 

 

步骤五、数据供应商代理获悉全局模型被更新后,从区块链获取全局模型,通过P2P网络投放到数据供应商。

 

 

步骤六、数据供应商将全局模型保存到本地模型池中,并据此模型采用本地数据集合开展新一轮训练。

 

 

步骤七、协调方借助零知识证明手段,对数据供应商以及联邦训练结果评估,评估结果保存在区块链中,作为算法供应商、数据供应方日后交易凭证。在学习过程中,区块链可以根据参与各方工作量给出各工作节点计算量证明。

 

 

以上模型通过联邦学习与区块链的协作,从框架机制上减少了大量数据传输和数据细节的暴露,满足了数据价值的传递。通过区块链的P2P网络与证书机制,保证了参与数据交易各方的身份真实可信;保证了数据交易合同的公正合理以及可追溯。

 

参考链接:

[1] 腾讯安全. “暗网非法数据交易是隐私信息安全的重大威胁”. https://s.tencent.com/research/report/566.html. 访问日期:2021年7月3日

[2] Kairouz, P.,McMahan, H. B.,Avent, B.,Bellet, A.,Bennis, M.,Bhagoji, A. N.等 “Advances and open problems in federated learning”,2019年。

[3] Ma, C. 等. “When Federated Learning Meets Blockchain: A New Distributed Learning Paradigm.” 2020年.