查看原文
其他

微众银行数据流通场景中的数据安全及隐私计算实践

​王朝阳 DataFunSummit
2024-09-10


导读 随着数据安全保护的不断发展,企业对数据生命周期中的安全治理、权限管控和安全合规的重视程度也越来越高。本次分享将针对数据生命周期中数据流通使用这一个关键环节介绍,主要是不同主体之间数据流通计算的场景,包括企业内部跨业务,国内企业间甚至出海的跨企业的数据共享使用,我们主要介绍微众银行在这方面的探索与实践。

全文目录:

1. 数据隐私安全新规下的新业态

2. 区块链融合安全多方计算

3. 隐私计算平台搭建和落地实践

4. 问答环节

分享嘉宾|王朝阳 微众银行 隐私计算技术专家

编辑整理|刘洋

内容校对|李瑶

出品社区|DataFun


01

数据隐私安全新规下的新业态

1.  把握数字经济发展新机遇,加快推进数字产业化与产业数字化

首先介绍一下整体行业背景。

自从2019年数据首次被列为生产要素以来,它与传统的资本、土地和劳动一样,通过与算力和算法的结合,已经成为一种新型的社会生产力。数据在这个背景下扮演着重要的角色,对经济发展产生了深远的影响;

数字经济正在高速发展,已经成为推动我国经济增长的核心动力之一。数字经济以数据为基础,通过信息技术的应用和创新,促进了各行各业的数字化转型和升级。数字经济的快速发展不仅带动了传统产业的转型升级,还催生了新的经济形态和商业模式,为经济增长注入了新的活力。

2. 数据是数字经济时代的“钻石矿”

目前我们已经拥有非常丰富且规模庞大的数据储备数据价值的挖掘已经形成一个广阔的蓝海。

3. 数据流通是价值释放基础但面临合规挑战

然而目前大部分数据都分散在各个实体之间,只有将数据汇集起来并进行流通,才能释放更多的价值。

由于数据本身往往包含敏感信息,因此在数据流通后面临着数据滥用、信息泄露以及隐私安全风险等问题。无论是国内还是国外,都已制定了许多法律法规来约束数据的滥用。所以当下主要的矛盾就在于数据流通与流通过程中的合规挑战。这就导致原本数据流通链路上的各个角色都面临着新的合规要求。

4. 数据流通中不同角色的痛点

对于数据提供方来说,之前他们将数据以明文形式提供出去后,一方面无法限制使用方对数据的使用,另一方面如果使用方利用这些数据获得收益,数据提供方也无法合理获取相应的回报。此外,根据现行法律法规的要求,明文出库已逐渐成为不合规的方式。同样地,对于数据经过的平台使用方和平台数据平台方,也存在或多或少的局限性。这对我们整个数据生命周期提出新的隐私要求。

5. 数据生命周期中的隐私需求

微众银行在2020年发布了一份数字新基建的白皮书,其中我们总结了数据全生命周期在安全新规下的隐私诉求,主要包括安全存储、可信传输和协同生产三个方面。

接下来,我们将重点介绍协同生产这一环节的工作。

6. 传统技术方案无法应对数据安全规挑战

在协同生产的环节中,我们总结了几类常见场景。

  • 第一类是查询类,涉及企业需要向外部第三方进行查询,例如银行需要找征信机构或运营商查询涉及诈骗的黑名单信息。以往的传统查询方案需要将用户的ID直接告知外部查询方,这可能泄露企业潜在客户信息。

  • 第二类是求交类,可以看作是一种批量查询。例如在联合营销和多头借贷场景下,多家银行需要共同找出同时在多家银行借贷的客户,并标记为存在多头借贷风险。在这种场景下,各家银行需要将自己的借贷名单提供给可信的第三方或直接传输给合作机构进行处理。然而,根据现行法规的要求,直接传输数据给外部方已不可行。

  • 第三类场景是预测类。在这种场景下,涉及到两类参与方:模型方和数据方。如一些机构前期已建立自己的风控模型,而其他机构只有数据,希望通过对方的风控模型对自己的用户数据进行评分,以决定是否进行后续业务处理。目前常用的做法有两种。一种是模型方将自己的模型部署到数据源。然而,模型方可能不愿意直接提供明文模型,因为这可能涉及商业利益。另一方面,模型方无法保证数据方不会将模型用于其他用途。另一种模式是数据方将原始数据提供给模型方,让模型方进行计算,并将用户评分返回给数据方。在这种情况下,数据方也面临两个挑战:一是数据出库的合规性问题,二是数据方向模型方支付了昂贵的模型价格,但在提供数据后,模型方可能会使用更便宜的模型来计算结果,数据方无法得知。上述两种情况都是由一方完成计算,导致另一方对结果的可信度较低。

  • 第四类场景是统计分析类,涉及各个主体或同一公司不同业务之间的数据。它们都拥有自己的数据,但希望基于全量数据进行统计分析,又不愿意共享自己的数据,导致许多此类统计分析业务无法开展。针对上述四类应用场景,我们致力于研究相应的隐私计算技术。

02

区块链融合安全多方计算

1.  央地多措并举,行业报告频发,鼓励使用“区块链”与“隐私计算”

在政策导向上,国家与行业非常鼓励使用区块链以及可用不可见的隐私计算技术。

2.  区块链辅助构建数据流通信任机制

区块链通过链上数据的难篡改、可溯源以及多方共识的特性,搭建一个数据流通的信任网络。

3.  隐私计算推动数据流通“双循环”

隐私计算在个人与机构之间、机构与机构之间通过密码学的技术去保证个人数据和机构数据不以明文的方式传出,而是以密文的形式来实现原来个人数据应用与原来机构间的数据协同。

4.  区块链与隐私计算的融合是必然趋势

区块链和隐私计算技术有许多共性,可以结合运用。

无论是区块链还是隐私计算,它们都涉及多方地位对等的协作;

涉及数据的跨域流转;

参与方之间既是合作又是竞争关系;

它们希望共享数据,发挥数据价值,但又不愿泄露业务数据或因合规考虑不能明文共享。

因此,存在数据共享和隐私保护的矛盾。

区块链和隐私计算的结合可以优势互补,区块链可以建立信任,隐私计算可以进行密文下的计算,实现隐私保护。

5.  隐私计算三大技术路线

隐私计算主要有三个技术路线,前两个是软件方式,第三个是硬件方式:

  • 安全多方计算通过密码学技术将数据转化为密文,在密文下进行计算和验证;

  • 联邦学习主要应用于机器学习和建模预测等AI场景;

  • 另外,隐私计算还有一种硬件形式,即可信执行硬件TEE。TEE是一种安全的硬件环境,各方的数据加密后进入TEE,在TEE种解密计算后,再将计算结果加密后传给结果接收方。

我们选择了区块链结合安全多方计算这一技术路线。

6.  区块链融合安全多方计算,解决明文数据价值释放难点

前面有提到,既然明文的数据汇集有合规那么就有一种思路:

可以先加密,在密文形式下再做汇集与计算。

由于安全多方计算MPC 是一种多方对等的、多方参与、且结果正确性可验证的一种计算形式,所以可以基于MPC实现密文数据融合与计算。

03

隐私计算平台搭建和落地实践

1.  区块链融合安全多方计算的“三网一体”架构设计

我们的平台可抽象为三层逻辑架构:

  • 第一层是由区块链节点构建的信任网络。在这个网络中,我们将各参与机构的身份权限和数据元信息存储在区块链上。数据元信息包括数据的名称、数据条目数量和数据特征,但原始数据不会存储在区块链上;

  • 第二层是基于隐私计算节点构建的计算网络。在这个网络中,节点之间进行密文的交互计算实现数据价值可信流转;

  • 第三层是接入网络,适用于不同角色的实际业务需求,例如数据方、模型方、审计方、结果方和运营方等。每个角色都通过部署隐私计算节点来接入隐私计算网络。

2.  数据隐私解决方案WeDPR应用场景矩阵

目前,微众银行隐私计算已涵盖以上各类场景式数据隐私解决方案,如隐私查询、隐私求交、联合预测、联合统计、隐匿投票、隐匿竞拍等。

3.  WeDPR全面满足国家级测试标准

且上述隐私计算平台与场景式隐私保护解决方案均通过央行首批金融科技产品检测、认证和工信部信通院的隐私计算的测评。

以下介绍我们在隐私计算领域的应用实践。

4.  匿踪查询,保护查询方业务核心数据

针对查询类的需求,我们提出了匿踪查询方案,以解决原始查询中的隐私暴露问题。

在传统查询中,查询方可能会直接将客户ID(如手机号或身份证号)暴露给外部数据机构(如征信机构或运营商)。

为了解决这个问题,我们引入了匿踪查询。

例如,当张三去银行申请贷款时,银行需要查询征信机构以确认张三是否在黑名单中。

在这个方案中,银行首先将张三的身份证通过本地的隐私计算节点进行加密,然后将加密后的ID传输给征信机构的隐私计算节点。

征信机构的节点会在黑名单数据库中筛选出一组可能与张三匹配的结果,并对这组结果进行加密计算,然后将这组密文传回给银行。

银行的隐私计算节点因为拥有张三的私密信息,可以生成张三的私钥,利用私钥遍历解密返回的密文。

只有当某个密文与张三的密文匹配时,银行的密钥才能解密该密文。

对于征信机构传回的其他数据,银行则无法解密,因此匿踪查询保证了查询方不会泄露客户信息,同时被查方也无法得知查询方查询了哪个客户信息,且不会泄露除张三之外的其他数据隐私。

匿踪查询目前已在业务中被广泛应用,包括银行内部不同业务之间的查询以及银行与外部合作机构之间的查询。

5. 隐私求交,保护双方独有数据隐私

隐私求交类可用于联合营销和银行内部对账系统。

其效果在于在不泄露各自独有用户的情况下,找出两个机构之间共有的用户。

例如,在联合营销合作前,银行为了确定和某个媒体进行合作是否会带来增益,需先对两个机构的用户进行求交,通过交集比例来做决策。

这个技术原理实际上是匿踪查询的一种批量形式,不同的是匿踪查询一般为实时的在线查询,而求交通常是离线、数据量较大的披露查询。

对于这类场景,学术界、工业界提出专用协议:

隐私求交,基本原理与匿踪查询相似。

目前,隐私求交已广泛应用于联合营销、精准投放、存量促活、联合风控等业务。

6. 联合预测,一方有数据一方有模型,保护双方隐私数据

联合预测,如在用户准入和理赔过程中,商保公司需要使用用户外部数据(如医保数据、医院诊疗数据等)和自身准入模型、理赔模型进行计算。

而医保局、医院不愿意将数据提供给商保公司,商保公司的准入模型也不愿意公开给医院。

通过使用隐私计算技术,医保局、医院和商保公司可分别部署对等的隐私计算节点。数据方的数据与商报公司的模型参数均通过隐私计算节点转化为密文分片,在模型计算过程中,三方分别拥有数据密文和模型参数密文的分片,每一方都可以先使用密文分片在本地进行计算,然后交互中间结果,以迭代的方式参与整个计算过程,最终获得模型预测结果上述流程保证了在预测过程中,数据和模型均没有泄露给外部机构,其次计算过程由三方共同参与,结果正确性不依赖单一机构,正确性可保证。

7. 联合统计,支撑多方大数据跨域报表交叉计算

联合统计的示例场景是政务部门之间的联合统计。

政务部门数据流通的主要痛点是数据申请流程繁琐,周期长,甚至在申请完成后,明文数据也不能直接获取。

隐私计算可以为其提供解决方案,即每个机关部门都部署一个隐私计算节点,每方将自己的数据通过隐私计算节点进行加密;

然后通过安全多方计算进行密文的交互计算;

最后,将密文结果发送给事先约定的结果接收方,该接收方具有解密密钥,可以解密最终的计算结果。

如上图示例中规划部门希望使用卫生数据、人口数据决策是否需要进行医疗场所扩建,规划部门作为结果接收方能够解密并获得明文结果,以做出最终决策。

这种联合统计的场景不仅适用于政务部门内部的不同部门协作,对于机构之间的处理逻辑也是类似的。

8. 2022大数据“星河”案例

去年,微众银行页参与了由工业和信息化部、中国信息通信研究院、中国通信标准化协会大数据技术标准推进委员会(CCSA TC601)联合举办的第六届大数据“星河”案例活动,我们的两个隐私计算落地应用被评为标杆案例和优秀案例:

  • 第一个应用是与国家健康医疗大数据研究院、华链医疗科技有限公司合作的医疗领域落地项目。

  • 第二个应用是与广电运通金融电子股份有限公司、上海海洋大学合作的海洋数据分析领域的应用。

9. 其他应用场景

除了上述提到的解决方案,我们还有一些其他应用,比如隐匿投票和隐匿排序:

  • 隐匿投票实现了投票者的匿名性,除投票者本人外,任何其他机构或参与方都无法知道每个投票人的选票内容,但系统可以在密文下进行统计得出结果。这个应用被称为We投票,在微众银行内部的党委、团委、工会以及公司内部考评中已经广泛使用。

  • 隐匿排序主要用于竞拍场景。除了竞拍者本人外,其他竞拍者、机构或系统均无法知道竞拍者的出价,但最终可以得到所有竞拍者的排名。

03

问答环节

问题1:在匿踪查询的案例中,如何确保查询结果中包含了数据请求方的数据?

回答:匿踪查询时,数据方返回的是一组可能命中结果,且不一定包含数据请求方的数据。所以被查方无法猜测出请求数据。

问题2:隐私计算的落地情况如何?

回答:隐私计算已进入全面落地阶段,落地场景涵盖金融、政务、公共健康、数字权益等各个领域,主要集中在联合营销、联合风控、智能医疗、电子政务、联合科研等场景,也包括智能能源、智慧城市、工业互联网等融合性数据应用场景。目前行业也在继续探索软硬件结合的技术路线以适配更多场景。

今天的分享就到这里,谢谢大家。


分享嘉宾

INTRODUCTION


王朝阳

微众银行 

隐私计算技术专家

微众银行区块链与隐私计算技术专家,专注于隐私计算、密码学技术研究,隐私计算平台建设与应用推广。


往期优质文章推荐

往期推荐


因果推断在机器学习中的实践前沿方向

货拉拉用户埋点体系建设实践

我们能获得推荐系统的大模型吗?

AIGC与大模型赋能机器人智能控制

百度凤巢大模型与搜索广告满意度设计与实践

如何应对大数据量挑战?分布式事务型 KV 数据库 TiKV 的实现和实践

当大语言模型遇见推荐系统

懂数据才能搞好业务,数据平台在Qunar的精细化运营中如何实现业务增值?

一个范式了解通用人工智能的进化!神经网络大模型 ⊕ 知识图谱 ⊕ 强化学习 = AGI

蚂蚁金融事理图谱构建及应用

快手3D数字人直播互动解决方案

数据驱动:指标体系如何助力业务增长

点个在看你最好看

继续滑动看下一个
DataFunSummit
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存