202507 论文研读-Decentralised, Scalable and Privacy-Preserving Synthetic Data Generation

作者：Vishal Ramesh;Rui Zhao; Naman Goel;
来源：arxiv
单位：牛津大学
时间：2023

背景

现实中高质量数据难以共享，尤其在人口、健康、金融等隐私敏感场景，造成高质量数据的稀缺和隐私问题的担忧。Synthetic Data人工生成的数据可在保持统计特性的同时降低隐私泄露风险，可用于训练更公平、鲁棒的机器学习模型。当前方法的限制主要有依赖可信中心、MPC计算/通信开销大、用户数据控制权弱等

论文主张从整个数据生命周期来对于数据贡献、存储、计算、控制来进行分析考虑，实现可信负责的合成数据生成系统

核心贡献

论文提出了一套去中心化 + 可扩展 + 差分隐私保障的合成数据生成架构
核心创新：
1、贡献者自洽：使用 Solid Pods 让数据提供者决定是否参与、参与什么任务，并可控制数据访问粒度
2、输入与输出隐私同时保障：通过MPC来确保用户输入隐私，差分隐私算法来确保框架的输出隐私
3、具有可扩展性的混合架构：将耗时计算从 MPC 分离到 TEE（Intel SGX）中，避免纯 MPC 带来的通信瓶颈
4、可插入算法模块设计，不依赖可信中心：支持主流DP合成算法（MWEM、PGM、APPGM 等）

框架设计

论文的核心技术框架分为三个主要部分Solid+MPC+TEE，从功能的角度分为数据存储+数据聚合隐私保护+执行可扩展保障，
Solid模块：数据由个人持有，保存在 Pod 中，数据提供者决定是否参与、参与什么任务，并可控制数据访问粒度。
MPC模块：输入隐私保护计算层，在不泄露原始数据的前提下，完成数据统计聚合，采用MP-SPDZ框架的Shamir Secret Sharing协议实现隐私计算
TEE模块：高效可信执行层与生成层，执行差分隐私噪声添加和合成算法的推理部分，是框架生成数据的执行层，基于Intel SGX运行平台，使用Remote Attestation 确保 TEE 中运行的代码可信

系统的架构基于Libertas架构，使用MPC+TEE来克服原本Libertas架构的高计算和通信成本问题，框架的参与角色分为数据提供者、MPC应用、加密代理、计算代理，框架角色交互流程如下图所示

整体框架的流程分为四步
匿名化：用户在Solid Pod中通过访问控制移除个人标识符，如schema::identifier
客户端聚合：加密代理读取Pod数据，转换为直方图表示（减少维度，提升效率）
MPC直方图聚合：计算代理通过MPC协议安全聚合局部直方图（加法操作），输出加密的全局直方图。
差分隐私合成数据生成：随机选定的计算代理通过远程认证验证TEE完整性，向全局直方图添加噪声，满足差分隐私要求，运行生成算法（如PGM、MWEM），输出合成数据至MPC应用

实验分析

论文实验部分旨在分析框架在可扩展性、实用性、兼容性、参数鲁棒性

配置：
网络环境：使用本地集群模拟分布式环境
MPC：MP-SPDZ支持 Shamir / MASCOT 等协议
TEE平台：Intel SGX + Gramine 作为 enclave 容器执行生成算法
数据存储：模拟 Solid Pods 结构，通过 RESTful API 控制访问
差分隐私算法：MWEM（主算法）、PGM、LocalConsistency（对比算法）

数据集选择：
论文实验采用渐进式分析，首先通过模拟数据用于可扩展性和通信的评估，其次采用真实数据用于质量与算法兼容性评估，数据集采用Adult（UCI）、Titanic（Kaggle）

对于使用模拟数据来测试框架对于纯MPC和MPC+TEE的效果比对，主要考虑总通信开销、参与者通信量、整体运行时间、合成算法的最大支持迭代次数。同时对于MPC中协议的设置采用shamir（多数诚实）和MASCOT（多数不诚实）进行比对分析
分析图中可以得知每个数据提供者的提供数据点数在评估指标上不会扰动效果评估。从迭代次数花费的时间来看，纯MPC架构相较于混合架构花费的时间更多，从MWEM算法的误差分析图比对可以看出，bins的设置会影响误差的收敛度，同时对于纯MPC方案，模拟数据集运行效果不佳，时间消耗大通信成本高。
多数不诚实和多数诚实同样影响了整体的算法迭代次数增加

真实数据测试：
真实数据集采用Adult数据集和Titanic数据集，对于合成算法的采用是PGM和Local Consistency两种算法。从结果的分析中得出，仅考虑边缘查询的情况下，Adult数据的domain size为Titanic的的40倍左右，但从整体的时间消耗上看，时间花费仅为Titanic的6倍，提出方案对于高维数据友好，当用户数为1000，通信量在1.4gb，仍然可控，适合实际部署

论文总结与启发

总结：

论文设计了一种去中心化、可扩展且具备差分隐私保障的数据处理系统，基于 Web 去中心技术 Solid、密码学安全计算 MPC 以及可信硬件 TEE 构建了一个数据全生命周期隐私保障的合成数据系统，既保护了原始数据不被泄露，又能在合成数据中注入差分隐私保证，最终实现了数据提供者可控、计算过程可信、输出结果可用的端到端解决方案。

启发：

1、论文采用的存储方式是基于Solid Pods来实现应用和数据的分层，同时通过访问控制去除敏感标识符，对于数据的匿名化涉及不多，相比于课题的研究方向，分布式账本一定程度上契合论文的存储框架，可以参考论文思想实现区块链DP的标识符匿名化

2、论文提出的合成数据技术主要实现是基于MPC+TEE两个模块，论文中对于数据细粒度的控制主要是通过Solid用户开发的细粒度，通过合成数据算法得到具有差分隐私的数据用于后续的分析，但对于合成数据的推断攻击，隐私保护的问题没有进一步的测试，结合自身的课题可能需要关注数据的效用问题。