遇到联邦计算数据碰撞难题怎么办?不妨试一试PSI

摘要:
本文由BreakDraw分享自华为云社区的“使用PSI解决联合计算的数据冲突问题”。随着MPC、隐私计算等概念的普及,许多政府机构和金融企业开始考虑参与多方计算场景,以扩大数据的应用价值。在传统方案中,在TEE中执行碰撞操作以获得相关数据,然后进行计算。因此,实际相关数量取决于银行存款人数。PSI解决方案可以有效地解决上述两个问题。使用当前tics的联邦计算服务已经支持psi的应用。
摘要:随着MPC、隐私计算等概念的流行,诸多政府机构、金融企业开始考虑参与到多方计算的场景中,扩展数据的应用价值。

本文分享自华为云社区《使用PSI解决联邦计算的数据碰撞问题》,作者:breakDraw。

联邦计算场景

随着MPC、隐私计算等概念的流行,诸多政府机构、金融企业开始考虑参与到多方计算的场景中,扩展数据的应用价值。

以下面这个场景为例,银行可能希望获取水电局和自己银行内储户的数据,来综合计算得到各公司的信贷评分等级。

那么银行可能希望执行如下sql,来得到信贷评分。

select0.5*c.资助金额*0.3+0.4*a.贴息金额*0.3+0.2*a.标的金额*0.3+(0.05*b.水费缴纳金额+0.05*b.汽费缴纳金额+0.05*b.电费缴纳金额)*0.1
frompartyA.taxa.partyB.amountb
ona.id=b.id

遇到联邦计算数据碰撞难题怎么办?不妨试一试PSI第1张

问题

上述联邦计算场景中,需要做join操作,来进行水电局和银行数据的关联。传统方案中,会在TEE中进行碰撞操作,得到关联数据,再进行计算。

遇到联邦计算数据碰撞难题怎么办?不妨试一试PSI第2张

但水电局的用户数量是非常多的,而银行的储户数量相对来说是有限的。因此实际关联数量是以银行储户数量为准。

如果将水电局的数据如果全部上传到TEE中,则软硬件之间的传输代价会非常大,且这个过程将非关联记录的敏感数据也会一并带上来。

另外银行的储户身份也可能是高敏感隐私。

解决

使用PSI方案(隐私保护集合交集)可以有效地解决上述两个问题。

PSI通常具有以下三个特点:

  • 半可信场景:数据双方不愿意暴露所有数据,仅希望求得数据集合交集
  • 数据最小化:除了数据集合交集以外的数据不能泄露给任意一方
  • 安全双方计算:参与计算的双方需要共同实现一套安全的计算协议,以保证数据的安全性。
    具体流图如下:

遇到联邦计算数据碰撞难题怎么办?不妨试一试PSI第3张

该过程可保证A方和B方的id在纯密文的场景下进行碰撞,得到关联id集合,并以此为依据输出。

应用

当前tics的联邦计算业务已支持psi的应用。

联盟管理页面,管理员开启“高级别隐私保护”。当开启之后,如果满足PSI-JOIN的sql语句,tics便会选用psi的方式构建执行计划,进行join碰撞,再继续后续的计算。

创建作业,执行对应包含sql-join作业

执行作业,可以看到tics系统的DAG图中,展示了psi的全部过程。输出结果与直接做join的结果是一致的。

遇到联邦计算数据碰撞难题怎么办?不妨试一试PSI第4张

 

点击关注,第一时间了解华为云新鲜技术~

免责声明:文章转载自《遇到联邦计算数据碰撞难题怎么办?不妨试一试PSI》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Github Actions 还能做这些事八:SQL之DQL数据查询语言单表操作下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

mysql8.0 创建数据库及对应的用户

1、使用root用户登入数据库 2、创建数据库 create dababase test_database 3、创建用户 ## % 代表不限制ip ## localhost 代表只能本地访问 ## 192.168.1.1 代表只能192.168.1.1 这个固定ip访问 create user 'testuser'@'%' identified by '...

opencv获取当前帧数据问题

在用opencv打开摄像头,获取当前帧数据,处理图像人脸识别、操作硬件等动作之后再获取当前帧数据。出现如下问题: 摄像头的每帧数据会全部存入缓冲区,需要一帧接一帧的把缓冲区的图片依次进行处理,但处理速度小于存进缓冲区的速度,那么缓冲区的图片就越积累越多,会导致处理内容都不是实时的、导致延时现象很明显。 解决办法:增加一个线程,循环获取摄像头数据,及时清空缓...

product of大数据平台搭建------CM 和CDH安装

一、安装说明       CM是由cloudera公司提供的大数据组件自动部署和监控管理工具,相应的和CDH是cloudera公司在开源的hadoop社区版的基础上做了商业化的封装的大数据平台。        采用离线安装模式,虽然在线安装比较简单,但是速度感人,原因大家都懂,这里我使用的各软件版本信息为: 操作系统:CentOS6.8 CDH版本:5.7...

数据仓库项目中的数据建模和ETL日志体系

数据仓库项目跨功能需求开发不够完善,导致的各种问题,就我个人经验来说,主要体现在数据建模不够标准和 ETL 日志体系不够完善两个方面,本文会详细介绍一下,如何从跨功能需求的角度,构建标准的数据建模和完善的 ETL 日志体系。   对于一个软件来说,分为功能需求和跨功能需求(Cross-Functional Requirements, CFR)。功能需求,一...

如何写数据报告

一个完整的数据报告,应至少包含以下六块内容: 报告背景 报告目的 数据来源、数量等基本情况 分页图表内容及本页结论 各部分小结及最终总结 下一步策略或对趋势的预测 其中,背景和目的决定了你的报告逻辑(解决什么问题);数据基本情况告诉对方你用了什么样的数据,可信度如何;分页内容需要按照一定的逻辑来构建,目标仍然是解决报告目的中的问题;小结及总...

样本稳定指数PSI

信用评定等级划分之后需要对评级的划分做出评价,分析这样的评级划分结果是否具有实用价值,即分析样本分布的稳定程度。样本分布稳定,则信用评定等级划分结果的实用价值就高。采用样本稳定指数( PSI )检验样本分布的稳定程度,若训练样本和测试样本在分布上表现一致,样本稳定指数的取值就会接近于零,信用评级划分结果的可靠性就会很高;若训练样本和测试样本在分布上差异很大...