前言: 在数据领域,安全和发展一直是两大主题。对企业来说,这两个主题一直是矛盾的。一方面出于商业需求的考量,需要数据的流通来发挥数据的价值。另一方面出于合规的要求,需要采取控制措施对数据进行保护,保障数据的安全。而控制措施在一定程度上会严重限制数据的流通。所以企业一直在寻求数据流通和数据保护的最佳平衡点在保障数据安全的前提下如何实现数据的价值。在技术领域,隐私计算技术作为一项重大的技术创新,也许能帮助我们来解决这个数据困境。 本文将尝试回答以下问题: 1、隐私计算技术是什么? 2、了解隐私计算对我们法律人有什么帮助? 3、目前隐私计算面临的挑战有哪些? 笔者虽具有技术背景,但是对于最近2年才火热的隐私计算技术也是知之甚少,撰文更多的是希望法律届的同仁对隐私计算技术有所认知,便于未来在开展数据合规工作中更好的与技术人员交流,同时加入探讨隐私计算技术合规性的队伍中来。本文结合中国信通院的隐私计算大会和隐私计算白皮书,抛砖引玉,期待同仁更好的文章。一、隐私计算技术是什么? 隐私计算技术,顾名思义是一门技术,但是它并不是具体哪一门,而是一个技术集,其中包括了一系列的技术。同区块链融合了密码学、经济学、软件工程、通信工程等不同学科一样,隐私保护计算也并非单一学科的技术,也而是一种融合了多种学科的技术体系,包括了密码学、数据科学、经济学、人工智能、计算机硬件、软件工程等。国外将隐私计算技术描述为隐私增强计算技术,并将其列为未来几年科技发展的九大趋势之一,因此备受关注。 从隐私计算白皮书给出的概念来看,隐私计算是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的可用不可见。本文将从概念角度进行解析隐私计算。 1、一系列信息技术。首先笔者试图解析的是隐私计算技术包括哪些具体的信息技术。目前隐私计算技术已经形成了以多方安全计算、联邦学习、可信执行环境为代表,混淆电路、秘密分享、不经意传输等作为底层密码学技术,同态加密、零知识证明、差分隐私等作为辅助技术的相对成熟的数据体系。其中多方安全计算、联邦学习、可信执行环境,是目前主流的三大技术,正处于快速增长的技术创新阶段或者已达到技术成熟的预期峰值,需要我们重点关注和理解。 (1)多方安全计算(MPC)。笔者本科就读软件工程专业期间,曾接触过姚氏百万富翁问题在无可信第三方的情况下,两个百万富翁Alice和Bob要在不暴露自己财产的情况下,比一比谁更有钱。百万富翁问题的解答就用到了多方安全计算。所谓多方安全计算可以理解为,在无可信第三方的情况下,多个参与者共同计算出一个目标函数(方程式),每一方只得到自己的计算结果,同时保证计算过程中不泄露其他任何数据。例如,ABC公司都想使用对方的数据得以训练优化自身的算法,但是各方出于数据安全合规的要求,不能随意泄露自己所控制的私有数据,如果采取用户授权同意的方式,无疑难度巨大。这时引入多方安全计算,ABC公司将各自私有的数据输入该机制中进行计算,最后得到的只有计算结果,在计算过程中ABC都不会知晓彼此的私有数据,这就是多方安全计算的大概。可以预见,该技术可以很好的解决数据流通中的数据安全问题。 (2)联邦学习(FL)。联邦学习解决的问题是羊如何吃草。假设有一头小羊,想吃各自不同营养成分的草料,你需要去各地收集草料再运送回来喂它。但是有一天,各地都禁止将草料向外运输了,你该怎么办?联邦学习给出了答案。之前是采用将各地草料收集好后运回来喂养小羊,即所谓羊不动,草动的模式。现在联邦学习提出,采用羊动,草不动的模式,即让小羊自己到各地去吃草,这种方式的好处在于你并不知道吃进小羊肚子里的草长啥样。这样的变化,看上去没什么太大的区别,但是如果我们把场景从草场切换到数据领域,就会有巨大差异。在数据领域,特别是人工智能时代下,我们需要通过大量的数据来训练优化算法,我们把小羊换成算法,把草换成数据。过去在数据野蛮时代,企业通常无需考虑隐私保护和数据安全问题,当时数据的流通几乎是无障碍的。但是现在出于监管的压力,企业需要考虑隐私保护和数据安全的问题,因此就出现了各地都禁止将草料向外运输的现状,保证数据不出域,也就是所谓的数据孤岛问题。这种情况下,企业只能通过自己控制的数据来提升算法,这对于企业自身核心算法的提升会非常单一,也极易陷入瓶颈(羊长不大或者容易长歪)。我们需要让算法摄入更多不同类型的训练数据(不同的企业掌握的数据类型不同),得到一个更优化的算法(健康的小羊)。这时我们通过联邦学习,让数据留在本地,不出域,而让算法模型进行移动。 (3)可信执行环境(TEE)。前面两个都是关于软件层面的,而可信执行环境却是硬件层面的技术。可信执行环境具体是指CPU的一个安全区域,它和操作系统独立开来,且不受操作系统的影响。可以说可信执行环境是一个比操作系统更安全的地方,在里面保存和计算的数据不受操作系统的影响,是保密且不可篡改的。但是相对于多方安全计算和联邦学习来说,可信执行环境是需要一个可信第三方的存在。 在互联网行业里,有人喜欢将隐私计算以江湖门派的形式进行分类,便于理解: l安全多方计算(MPC)是少林派,历史悠久,功力深厚,最早可以追溯到上世纪80年代,有秘密共享、传输混淆电路等一些非常强大的独门武功。 l可信执行环境(TEE)是华山派。通过硬件技术来对数据进行隔离保护,以Intel等厂商为代表,国内包括蚂蚁金服等公司将之集成到自己的隐私计算平台。 l联邦学习(FL)是武当派。它是隐私计算的后起之秀,就像武当派张三丰师出少林一样,联邦学习结合密码学和分布式计算,实现了多方协作的机器学习,在人工智能领域开辟了新天地。 除此之外,还有同态加密、零知识证明、差分隐私等这些辅助性的技术或常应用,同样非常有用,好比泰山派、峨眉派,它们共同组成了丰富多彩的隐私计算江湖。 2、可用不可见。隐私计算技术的目的是让数据在流通过程中实现可用不可见,实现只输出数据结果而不输出数据本身。所谓可用不可见,即在数据流通过程中,通过隐私计算技术,让各方在不知晓对方私有数据的情况下,使用其他各方的数据来训练优化自己的算法。从数据权属上看,各方对他方的数据只有使用权没有所有权,从而满足数据流通的合规性。根据《网络安全法》第四十二条网络运营者不得泄露、篡改、毁损其收集的个人信息;未经被收集者同意,不得向他人提供个人信息。但是,经过处理无法识别特定个人且不能复原的除外。换句话说,《网络安全法》规定了两种数据流通的合法性基础授权同意和无法识别且不能复原(可以理解为匿名化)。隐私计算技术实现的可用不可见,可以让数据匿名化流通,这就可以满足无法识别且不能复原的合规要求,无需在数据流通环节再次获取个人的授权同意,这将大大的减少企业合规成本。 在基本了解隐私计算后,我们其实预见到隐私计算技术将是一项重大的技术创新。作为数据要素流通的一种方案,隐私计算如果可以落地,就能很好的帮助企业解决数据困境问题。但是对于我们法律人,了解隐私计算有什么好处呢? 二、了解隐私计算对我们法律人有哪些帮助? 作为法律人,笔者认为了解隐私计算技术对我们的帮助可以总结为以下三点: 1、了解隐私计算,可以帮助我们更全面更深入的了解数据领域。众所周知,经济学上有三驾马车投资、出口和消费。在数据领域,笔者认为也可以归纳出三驾马车,即政策、管理和技术。所谓政策,主要是指法律,即数据领域的相关法律法规,这是国家或地区层面。管理,指企业自身的合规,包括数据合规管理体系建设等,这是企业或者单位视角。技术,目前主要指的是隐私计算,从技术角度出发来解决数据困境。作为法律人士,我们对政策、管理都非常的了解,但是大部分人很少了解技术。所以说,如果缺失对重大技术的了解,我们其实对于数据领域的了解是不全面、不深入的。 2、了解隐私计算,可以帮助我们在与技术的遭遇战中知己知彼。对于很多不了解技术的法律人来说,在遇到技术问题时,往往是一场遭遇战。对于数据合规领域的律师来说,在数据合规的业务场景中,必然会遇到或多或少的技术问题,其中就可能包括目前最前沿的隐私计算技术,这是无法避免的。特别是在隐私计算已经逐步在互联网大厂、初创公司、运营商、金融科技公司中铺开,其相应产品也在陆续进入试点或者实施阶段。我们在越来越多的场景中发现了隐私计算的身影,比如电子政务、联合营销、联合风控、智慧医疗、智慧城市、智慧能源等场景。可以说法律人和隐私计算技术遭遇的可能性正在变得越来越大。在遭遇战到来之前,提前了解或许会帮助我们。 3、了解隐私计算,可以帮助我们的数据合规顺利落地。在我们的数据合规法律服务中,很多场景下要求我们法律人员需要懂一点技术。比如,在调研阶段,我们对于技术部门进行尽调时,需要我们提得出有意义的问题,听得通技术人员的解答。在我们的合规制度制定和实施阶段,需要我们提出配套技术措施来保障合规的落地。特别是在隐私计算技术可能帮助解决数据流通环节下的数据困境,提升数据流通环节的合规性时,更需要我们法律人士去了解隐私计算。可以说数据合规法律服务的落地需要法律与技术的对话和深层次结合。 上面说到,在数据合规领域,法律和技术往往具有更为密切的联系,它要求我们法律人不仅需要懂政策,还需要懂点技术。但是当我们经历了快播,区块链,还有人工智能后,我们都认识到技术是容易变味的,这也让我们质疑技术本身的中立性。至少我们认同技术本身不可能游离于社会规范之外,那么我们也就有必要来讨论隐私计算本身可能存在的技术问题、落地问题以及其合规性。 三、隐私计算面临的挑战有哪些? 笔者通过总结业内人士的观点,发现目前隐私计算的应用依然面临着巨大的挑战,尚无法实现大规模应用。 首先,技术本身面临难题。目前业内讨论最多的问题还是隐私计算平台的互联互通。由于隐私计算尚缺乏统一的标准,各大平台(包括国外的微软、谷歌、脸书,还是国内的阿里、腾讯、微众、字节等)的算法原理和技术架构都不同,平台之间所依托的数据难以实现互联互通,就可能导致数据孤岛演变为平台孤岛。虽然异构平台和开源架构的出现都趋向于数据的互联互通,但是厂商们各自的商业考量才是隐私技术平台互联互通的关键。同时,隐私计算技术本身的安全性也难以保障,比如无法保障算法的绝对安全。可以说,如果把数据的流通比喻为武装押运,目前的隐私计算技术就好比浮桥一般,晃晃悠悠的,离钢筋混凝土的大桥还相差甚远。打铁还需自身硬,隐私计算技术的成熟度还有待加强和认证。 其次,技术存在认知难题。认知层面主要有两个问题,难以理解和过度夸大。隐私计算的落地需要技术部门、职能部门、业务部门的协同配合。技术部门需要把隐私计算通过通俗易懂的语言讲解给职能部门、业务部门以及客户,但对于这项非常前沿的重大技术创新,这对技术人员来说是一个巨大的挑战,而且绝大部分的技术人员只关注技术本身,这就给协同配合带来沟通上的巨大鸿沟。另外,目前有些企业或者产品,过度夸大技术产品的效能,将一些还未实现的效能进行提前宣传,这本身就是在过度的夸大技术产品,不利于行业的健康发展。 最后,技术本身的合规问题。隐私计算作为一种数据流通方案,虽然可以提升数据流通的合规性,但是同样面临着一些合规问题。根据隐私计算白皮书,目前隐私计算包括以下4点合规问题。 l原始数据存在合规瑕疵。考虑可能存在通过反向工程来获取原始数据的可能性,企业不能仅依靠隐私计算技术来为数据流通保驾护航,还需要尽可能的去获取用户的授权同意,虽然授权同意的难度极大。 l模型存在泄露可能。考虑到模型存在泄露可能,从而导致原始数据可能丢失,这种情况下还需要对模型的泄露风险进行控制。 l参与方存在安全隐患。做个坏人很容易,做好人却很难。我们无法低估人性的恶,同时我们也无法排除某些参与方可能会通过主动违约来获取某些额外的信息,或者部分参与方恶意合谋获取其他参与方的数据。这些情况下,都需要在我们都合规体系中有所体现,好比木桶效应一样,合规体系必须是全覆盖的,否则合规只是口号。 l输出结果可能泄露敏感数据。我们无法排除输出结果不存在隐私风险,比如在征信机构的预测场景中,如果在输出结果中泄露了借款人的ID,就可能泄露借款人本身的借款需求。 综上,隐私计算在当下仍然存在较大的技术风险、巨大的认知难题、潜在的合规问题,可以说目前的隐私计算尚无法承载救世主的角色。即使未来,隐私计算技术的成熟度已经足够,我们也很难讲单靠一项技术就可以实现数据合规,更何况隐私计算计算只针对数据流通环节。合规强调全覆盖,数据有自己的生命周期,数据合规就意味着需要对数据的全生命周期进行合规管理,而不仅限于数据流通环节。当然,作为一项重大技术创新,隐私计算所实现的可用不可见是具有重大技术价值的。在数据流通环节,我们需要将以隐私计算为代表的技术融入到合规管理体系中,帮助我们更好的让合规落地,保障企业的数据安全。