本文介绍了一篇发表在《Journal of Systems Architecture》2024年第151卷的学术论文,题为《Efficient Privacy-Preserving Gaussian Process via Secure Multi-Party Computation》。该研究由Shiyu Liu、Jinglong Luo、Ye Hong Zhang、Hui Wang、Yue Yu和Zenglin Xu共同完成,分别来自中国电子科技大学、哈尔滨工业大学(深圳)和鹏城实验室。论文的主要研究领域是隐私保护机器学习(Privacy-Preserving Machine Learning, PPML),特别是针对高斯过程(Gaussian Process, GP)的隐私保护算法设计。
高斯过程(GP)作为一种非参数模型,因其灵活性和能够提供不确定性表示的能力,广泛应用于医疗、金融和机器人等领域。然而,随着数据隐私问题的日益突出,如何在多源数据共享的情况下开发隐私保护的高斯过程模型成为了一个重要课题。特别是在医疗和金融领域,数据通常来自多个机构,但由于隐私法规的限制,这些数据无法直接共享。因此,如何在保护数据隐私的同时,构建高性能的高斯过程模型成为了一个亟待解决的问题。
现有的隐私保护技术如同态加密(Homomorphic Encryption, HE)、联邦学习(Federated Learning, FL)和差分隐私(Differential Privacy, DP)虽然在一定程度上能够保护隐私,但它们各自存在局限性。例如,同态加密计算和通信成本高,差分隐私可能影响模型性能,而联邦学习的安全性有限。因此,本文提出了一种基于安全多方计算(Secure Multi-Party Computation, SMPC)的隐私保护高斯过程算法,旨在克服现有技术的不足。
本文提出了两种隐私保护的高斯过程算法:PP-GP和Split-GP。PP-GP基于秘密共享(Secret Sharing, SS)技术,通过引入新的SS指数运算(PP-EXP)和SS矩阵求逆运算(PP-MI)来实现隐私保护。PP-EXP通过混淆校正技术提高了指数运算的精度,而PP-MI则基于Cholesky分解实现了矩阵求逆的隐私保护。
然而,高斯过程的计算复杂度较高,尤其是在大规模数据集上,计算和存储成本显著增加。为了进一步提高效率,本文提出了Split-GP,这是一种基于分割学习(Split Learning)的隐私保护高斯过程框架。Split-GP将计算过程分为两部分:与数据相关的计算由数据持有者完成,而SMPC友好的计算则由半诚实服务器完成。通过这种方式,Split-GP显著减少了计算和通信成本,使其更适合大规模数据集的应用。
实验结果表明,PP-GP和Split-GP在保护隐私的前提下,能够实现与标准高斯过程相当的性能。具体来说: 1. PP-EXP和PP-MI的准确性:PP-EXP在指数运算中表现出与明文计算相当的精度,且计算速度比传统的多项式近似方法快70倍。PP-MI则通过Cholesky分解实现了矩阵求逆的隐私保护,确保了计算的正确性和安全性。 2. Split-GP的效率:Split-GP在大规模数据集上表现出显著的计算和通信效率提升。尽管Split-GP在性能上略有下降,但在处理大规模数据时,其计算速度提升了30倍,通信成本减少了50到3000倍。
本文的主要贡献在于: 1. 提出了一种基于秘密共享的隐私保护高斯过程算法PP-GP,解决了多源数据共享场景下的隐私泄露问题。 2. 设计了PP-EXP和PP-MI两种隐私保护的非线性运算协议,确保了高斯过程模型在隐私保护前提下的高效计算。 3. 提出了Split-GP框架,通过分割学习显著提升了大规模数据集上的计算效率。
该研究不仅填补了隐私保护高斯过程领域的技术空白,还为实际应用中的大规模数据处理提供了可行的解决方案,特别是在医疗和金融等对隐私要求极高的领域具有重要的应用价值。
本文通过引入秘密共享和分割学习技术,提出了一种高效且隐私保护的高斯过程算法,解决了多源数据共享场景下的隐私泄露问题。该研究不仅在理论上具有创新性,还在实际应用中展示了显著的计算效率提升,为隐私保护机器学习领域提供了新的思路和方法。