1、数据获取的方法有哪些?
2、数据开放时候需要注意的要点是什么?
3、数据利用和数据隐私之间的矛盾可以有哪些解决办法?
1、数据隐私保护---多方安全计算
20世纪80年代,姚期智院士提出了“百万富翁问题”:两个百万富翁想比较一下谁更有钱,但都不想透漏给对方自己到底拥有多少财富。这种情况下,如何让他们知道谁更有钱呢?为了解决这个问题,多方安全计算应运而生,并成为现代密码学的重要分支。该技术可以使多个非互信的主体在数据相互保密的前提下进行高效数据融合计算,而不透露每个数据所有者的原始数据,最终实现数据的所有权与使用权相互分离,这样即可实现数据“可用而不可见”,进而控制数据的用途和用量。
金融行业是数据密集型产业,已经在多年的发展中积累了大量的各类数据。当前银行遇到的新挑战在于针对高净值人群的传统银行服务已趋于饱和。面对同质化竞争,银行急需从单一依靠线下物理网点渠道向融合数字终端与线上场景转型。因此,新的数据特别是外部数据和线上数据成为重要的必争要素。
但在实际业务应用过程中,外部数据并不能轻易获取。这是因为一是线上场景大多被头部互联网公司占据且已形成生态闭环,无论从商业利益角度或是客户隐私的角度出发,都不会轻易向银行共享数据;另一个方案是直接购买第三方数据公司的服务。但近年来该类型公司经常爆出各种问题多爆出数据来源不明,侵犯客户隐私等事件,业务合规性严重存疑。甚至一些公司利用市场优势,过度采集、使用企业和个人数据,甚至盗卖数据,造成严重影响。金融机构需要以技术手段在合法合规的前提下,充分使用数据。
多方安全计算,或者说隐私计算,成为解决这一问题的最佳方式。通过隐私计算让 “数据孤岛互联”、“数据隐私保护”和“业务发展”三者间取得平衡。
2、联邦学习的研究内容
2.1“联邦学习” 是什么?有什么用?
大家可能知道,我们目前常用的人工智能应用(例如人脸识别、语音识别、图像识别、智能推荐等)已经相当成熟,它们通常都依赖于大量的训练样本。也就是说,已知一个X(“样本”),要判别它是否具备Y(“特征”),我们需要大量已知的X、Y来反复训练我们的模型(这个过程叫做“学习”)。
很多企业、组织,通过各种方式采集到了这样的数据样本,在内部进行训练,不断优化自己的模型(常见的如神经网络)。样本越多,预测就可能越精确,这是很多互联网公司都非常热衷于获取用户数据的原因。
但是在很多时候,这些数据样本是分散在多个地方,由不同机构持有的。
譬如一家银行,希望分析自己客户的贷款能力,它希望和保险公司(有客户的保险数据)、互联网公司(有客户的上网行为数据)等合作,汇聚更多的样本和特征信息,这样自己的模型就会更加精确。但是,因为法律规定和商业竞争的要求,这些保险公司、互联网公司显然不希望把自己的数据交出去(这就叫做“数据孤岛”),但是它们可能也都希望通过汇总更多的数据来优化自己的模型。
这时候怎么办呢?
“联邦学习”(Federated Learning, FL)就是为了解决这个问题,即让互相不信任的各方,可以把样本和特征汇聚到一起,共同获得更好的预测模型。或者说白了,就是大家联起手来学习。
2.2 “联邦学习” 是怎么实现的?
“联邦学习”主要分为三种,下面概要讲讲它们的实现方法。
(1)横向联邦学习
如果是几家业务类似的机构进行合作,也就是它们需要学习、预测的特征是类似的,但是用户、样本是不同的,例如一个地区的不同银行之间,他们各有各的客户,但是需要分析的数据特征都是存款额度、贷款额度等,那么它们之间的合作,就叫做“横向联邦学习”(HFL)。
(2)纵向联邦学习
另外一种情况,则是组织的客户群体是类似的,但是特征并不相同。譬如有一家银行和一家保险公司同在一个城市,它们的客户群体很多是重合的,但是银行的数据是用户的资产信息,而保险公司的数据是用户的保险信息,如果它们想要在不互相披露数据的情况下,联合开发一个风控模型。这时候采用的方法叫做“纵向联邦学习”(VFL)。
(3)联邦迁移学习(FTL)
迁移学习是机器学习中的一种特殊门类,即用户样本和特征都不同,类似于骑摩托车和自行车完全不同,我们希望通过学习,将骑自行车的技能迁移到骑摩托车上。
联邦迁移学习的架构类似于纵向联邦学习,但是采用的梯度计算方法、损失函数、交换结果有所不同。这个领域目前相对较不成熟,不赘述。
2.3“联邦学习” 可以用于哪些领域?
根据上面的介绍可以知道,它可以起到下列作用:
1)金融机构可以结合多方数据,建立更加全面的风控模型,对贷款人的信用进行评估;
2)医疗机构可以整合不同医院的数据,开发疾病检测模型、影像分析模型或者疫情防控模型;
3)监管机构可以通过组合不同部门、机构的数据,对洗钱、欺诈等行为建立更加精确的预警模型。
2.4 “联邦学习” 和隐私计算是什么关系?
“隐私计算”是指在处理、分析数据的过程中保持数据的不透明、不泄露。联邦学习是隐私计算的一种实现方法,另外还有多方安全计算(MPC)、差分隐私等方法。
2.5“联邦学习”有哪些优点和缺点?
优点:
缺点:
安全性的代价是性能。与不需要加密的分布式机器学习相比,联邦学习的性能显然要低得多。
联邦学习默认各个参与方是可信的,虽然采取了一些防范措施,但是仍然难以有效防范恶意参与方或者“诚实但是好奇”的参与方,引入虚假数据或者有害数据。
联邦学习的各个参与方的计算能力不同,网络连接不稳定,数据机构差异大等,而过程中又需要进行大量的互相通信,因而通信效率很容易成为性能瓶颈。
这些不足,也正是各个院校、企业的计算机研发人员正在努力优化的方向。这些方面的成果可谓层出不穷,如Google方案、微众银行FATE方案、PATE方法、SecureBooster等等,都试图在安全性、训练性能、网络效率等方面取得一定的平衡和突破。