Cadre de préservation de la confidentialité pour les calculs génomiques via le chiffrement homomorphe multi-clés

Cadre de protection de la vie privée pour l’analyse génomique : Recherche basée sur le chiffrement homomorphe multi-clés

Contexte académique

Avec la réduction des coûts du séquençage génomique, la disponibilité généralisée des données génomiques a ouvert de nouvelles possibilités pour la médecine personnalisée (également appelée médecine génomique). Cependant, les données génomiques contiennent des informations sensibles telles que la prédisposition aux maladies, les informations ancestrales et les caractéristiques physiques, ce qui pose des problèmes de confidentialité majeurs pour la recherche médicale et le partage des données. Bien que les chercheurs aient proposé diverses techniques de protection de la vie privée, les méthodes cryptographiques existantes présentent encore des lacunes en termes d’interopérabilité, d’évolutivité, de niveau de protection de la vie privée et de support pour les analyses multipartites. Ces limitations entravent le potentiel des données génomiques et leur application dans la recherche médicale. Par conséquent, le développement d’une technologie de chiffrement qui protège la vie privée tout en prenant en charge le traitement des données génomiques multipartites est devenu une nécessité pressante.

Source de l’article

Cet article a été co-écrit par Mina Namazi, Mohammadali Farahpoor, Erman Ayday et Fernando Pérez-González, respectivement affiliés à l’Open University of Catalonia, à la Case Western Reserve University, à l’Universitat Politècnica de Catalunya et à l’University of Vigo. L’article a été publié le 31 janvier 2025 dans la revue Bioinformatics, sous le titre Privacy-Preserving Framework for Genomic Computations via Multi-Key Homomorphic Encryption.

Processus de recherche

1. Objectifs et méthodes de recherche

Cette étude vise à surmonter les limites des méthodes cryptographiques existantes grâce à la technologie de chiffrement homomorphe multi-clés (Multi-Key Homomorphic Encryption, MKHE). Le MKHE permet d’effectuer des calculs sur les données chiffrées de plusieurs propriétaires de données sans avoir à les déchiffrer, offrant ainsi une protection de la vie privée tout en permettant des analyses génomiques multipartites. L’équipe de recherche a développé un protocole complet prenant en charge diverses analyses génomiques, y compris les tests génomiques individuels, les tests multipartites, l’analyse des bases de données génomiques et les opérations sur plusieurs bases de données.

2. Technologie de chiffrement homomorphe multi-clés

L’équipe de recherche a adopté un schéma MKHE basé sur le problème Ring-Learning with Errors (RLWE), proposé par Chen et al. (2019). Le MKHE permet d’effectuer des calculs sur les données chiffrées de plusieurs propriétaires de données, chaque propriétaire utilisant sa propre clé publique pour chiffrer les données. Pendant le calcul, les données restent chiffrées, et le résultat final nécessite un déchiffrement collaboratif par plusieurs parties. Cette méthode améliore non seulement le niveau de protection de la vie privée, mais élimine également le risque de point de défaillance unique.

3. Modèle de système et conception du protocole

Le cadre proposé comprend les acteurs suivants : - Institution certifiée (CI) : responsable du séquençage des échantillons biologiques des individus. - Autorité de gestion des clés (KA) : génère les paramètres publics du système. - Serveur cloud (SPU) : sert d’unité de stockage et de traitement, chargée d’effectuer des analyses sur les données chiffrées. - Propriétaires de données et requérants : incluent des individus, des hôpitaux ou d’autres institutions qui peuvent effectuer des analyses génomiques via le serveur cloud.

L’équipe de recherche a conçu les algorithmes principaux suivants : - MKHSetup : génère les paramètres publics. - MKHKeyGen : génère une clé privée, une clé publique et une clé d’évaluation pour chaque participant. - MKHEnc : chiffre les données à l’aide de la clé publique. - MKHPartDec : chaque participant utilise sa clé privée pour déchiffrer partiellement le résultat chiffré. - MKHFinDec : combine toutes les parties déchiffrées pour obtenir le résultat final. - MKHEval : effectue des calculs sur les données chiffrées.

4. Scénarios de tests génomiques

L’équipe de recherche a démontré l’application du cadre à travers les quatre scénarios de tests génomiques suivants : - Tests génomiques individuels : par exemple, la médecine personnalisée, calculant le score de risque génétique d’un individu pour une maladie spécifique. - Tests multipartites : par exemple, les tests de paternité, comparant les marqueurs génétiques entre un enfant et un père présumé. - Analyse des bases de données génomiques : par exemple, la recherche de patients similaires, identifiant des individus génétiquement similaires dans une base de données. - Opérations sur plusieurs bases de données : par exemple, le lien entre les enregistrements, identifiant et reliant les enregistrements appartenant au même individu dans différentes bases de données.

Principaux résultats

1. Protection de la vie privée et sécurité

L’équipe de recherche a prouvé la sécurité du cadre proposé dans un modèle d’adversaire semi-honnête. Grâce au schéma MKHE basé sur le problème RLWE, le cadre protège la confidentialité des données, garantissant que les données restent chiffrées pendant le calcul. Même si le serveur cloud ou d’autres participants tentent d’obtenir plus d’informations, ils ne peuvent pas déchiffrer les données chiffrées.

2. Performances et évolutivité

L’équipe de recherche a évalué les performances du cadre, montrant que le temps d’exécution est linéaire par rapport à la taille de la base de données. Pour les tests génomiques individuels, le cadre termine les calculs en 30 secondes ; pour les tests multipartites, le temps de calcul est de 53 secondes ; pour l’analyse des bases de données et les opérations sur plusieurs bases de données, les temps de calcul sont respectivement de 17 secondes et 35 secondes. Bien que le cadre soit légèrement moins efficace en termes de calcul que les solutions spécialisées existantes, ses avantages en matière de protection de la vie privée et de calcul multipartite lui confèrent une valeur importante dans les applications pratiques.

3. Interopérabilité et flexibilité

Le cadre permet aux propriétaires de données de chiffrer les données avec différentes clés publiques et d’effectuer plusieurs analyses sur les données chiffrées. Cette conception améliore l’interopérabilité du système, permettant aux propriétaires de données d’effectuer plusieurs tests génomiques sans avoir à rechiffrer les données. De plus, le cadre prend en charge l’ajout dynamique de nouveaux participants, renforçant ainsi sa flexibilité.

Conclusion et signification

Le cadre de protection de la vie privée basé sur le chiffrement homomorphe multi-clés proposé dans cette étude a une valeur scientifique et applicative importante dans le domaine du traitement des données génomiques. En permettant des calculs sur les données chiffrées de plusieurs propriétaires de données, le cadre protège la vie privée tout en permettant des analyses génomiques multipartites. Par rapport aux méthodes existantes, le cadre présente des avantages significatifs en matière de protection de la vie privée, d’interopérabilité et de flexibilité, en particulier dans les scénarios d’analyse de dossiers individuels ou de bases de données de taille moyenne.

Points forts de la recherche

  1. Technologie de chiffrement homomorphe multi-clés : L’équipe de recherche a été la première à appliquer la technologie MKHE au traitement des données génomiques, résolvant les limitations des méthodes existantes en matière de protection de la vie privée et de calcul multipartite.
  2. Protocole complet d’analyse génomique : Le cadre prend en charge divers tests génomiques, y compris les tests individuels, les tests multipartites, l’analyse des bases de données et les opérations sur plusieurs bases de données, démontrant son potentiel dans divers scénarios d’application.
  3. Performances et évolutivité : Le temps d’exécution du cadre est linéaire par rapport à la taille de la base de données, le rendant adapté à l’analyse de données de taille moyenne.
  4. Interopérabilité et flexibilité : Le cadre permet aux propriétaires de données de chiffrer les données avec différentes clés publiques et d’effectuer plusieurs analyses sur les données chiffrées, améliorant ainsi l’utilité et la sécurité du système.

Travaux futurs

L’équipe de recherche prévoit d’optimiser davantage les performances du cadre, en particulier dans les applications à grande échelle pour l’analyse des données génomiques. De plus, l’équipe étudiera comment contrer les attaques par inférence potentielles afin de renforcer les capacités de protection de la vie privée du cadre.