DPO PARTAGE
Pas de résultat
Voir tous les résultats
  • Se connecter
  • Accueil
    • Tous
    • Droit à l'effacement
    • droit à l'image
    • Droit à l'oubli
    • Droit à la limitation
    • Droit d'accès
    • Droit d'opposition
    • Droit de rectification
    gérer droit d'accès RGPD

    Droit d’accès du salarié à ses données RH

    exercer droit d'accès free

    Droit d’accès RGPD en contexte prud’homal : stratégie, méthodologie

    Demande de données par la gendarmerie

    Demande de données par la gendarmerie : faut-il répondre à un simple email ?

    consentement des salariés pour utiliser leur photo

    Faut-il demander le consentement des salariés pour utiliser leur photo en interne ? Un mythe à déconstruire.

    agenda Outlook d’un ancien salarié

    L’agenda Outlook d’un ancien salarié est-il communicable au titre du droit d’accès ?

    Caméras augmentées aux caisses automatiques

    Caméras augmentées aux caisses automatiques : entre prévention des pertes et protection de la vie privée

    Gestion de l’exercice des droits des personnes filmées

    Gestion de l’exercice des droits des personnes filmées : comment répondre efficacement aux demandes d’accès aux images ?

    Google répond à Criteo Index Exchange

    Privacy Sandbox : Google contre-attaque, mais Index Exchange enfonce le clou

    consentement et le contrat de cession de droit à l'image

    Comprendre la demande de consentement et le contrat de cession de droit à l’image

  • Cybersécurité
    • Tous
    • Cyberattaque
    • phishing ou hameçonnage
    • Sécurité
    • SIIV
    une IA pirate une autre IA

    Quand une IA pirate une autre IA : l’affaire McKinsey révèle une nouvelle ère de cybermenaces

    TAJ fichier police LAPSUS$ 2026

    TAJ : LAPSUS$ revendique l’accès au fichier de police le plus sensible de France

    Pegasus Predator Graphite Triangulation

    Pegasus, Predator, Graphite ou Triangulation : Apple alerte ses utilisateurs ciblés par des logiciels espions : ce que dit le CERT-FR

    CEGEDIM fuite de données

    Affaire Cegedim / MLM : anatomie de la plus grave violation de données médicales jamais documentée en France

    CEGEDIM fuite de données

    Cegedim : anatomie de la plus grave fuite de données médicales jamais documentée en France

    Fuite de données IDMerit

    Fuite de données IDMerit : 53 millions de Français exposés dans l’une des plus grandes violations de données KYC de l’histoire

    Demande de données par la gendarmerie

    Fausse convocation de la « Brigade de protection des Mineurs » : anatomie d’une arnaque bien rodée

    droit d'accès FICOBA

    Piratage du Ficoba : 1,2 million de comptes bancaires français espionnés par un intrus depuis janvier

    European NIS 2 directive

    NIS 2 et SPST : le DPO au cœur de la chaîne d’alerte

  • Votre conformité RGPD (Tarifs)
  • Secteurs d’activité
    • Tous
    • Association Alumni
    • Assurance et assimilé
    • Avocat
    • Collectivité territoriale
    • Commissaire aux comptes
    • Communes / Mairies
    • CSE et RGPD
    • ecommerce
    • expert comptable
    • Marketing
    • Officines Pharmaceutiques
    • Ressource humaine
    • Ségur numérique
    • Services Sociaux
    • Site Internet
    • SMMA
    • SPST
    • télétravail
    Gend'Élus

    Gend’Élus, la plateforme des maires : et si la vraie menace pour les communes n’était pas celle qu’on croit ?

    RGPD dans les SPST

    Enquête nationale RGPD dans les SPST : DPO FRANCE lance une première historique

    DPO mutualisé collectivités territoriales

    Conformité RGPD des communes : DPO FRANCE et ETATYS lancent un service DPO mutualisé collectivités territoriales

    conformité au RGPD au sein des CSE

    Fuite de données chez Espace CSE : les informations personnelles de milliers de salariés exposées sur le Dark Web

    dpo mairie

    Maire sortant et absence de DPO : quels risques encourus ?

    dpo secteur santé

    DPO mutualisé communes : économisez à plusieurs grâce à la mutualisation nationale DPO FRANCE

  • Contact
Premium
S'INSCRIRE
  • Accueil
    • Tous
    • Droit à l'effacement
    • droit à l'image
    • Droit à l'oubli
    • Droit à la limitation
    • Droit d'accès
    • Droit d'opposition
    • Droit de rectification
    gérer droit d'accès RGPD

    Droit d’accès du salarié à ses données RH

    exercer droit d'accès free

    Droit d’accès RGPD en contexte prud’homal : stratégie, méthodologie

    Demande de données par la gendarmerie

    Demande de données par la gendarmerie : faut-il répondre à un simple email ?

    consentement des salariés pour utiliser leur photo

    Faut-il demander le consentement des salariés pour utiliser leur photo en interne ? Un mythe à déconstruire.

    agenda Outlook d’un ancien salarié

    L’agenda Outlook d’un ancien salarié est-il communicable au titre du droit d’accès ?

    Caméras augmentées aux caisses automatiques

    Caméras augmentées aux caisses automatiques : entre prévention des pertes et protection de la vie privée

    Gestion de l’exercice des droits des personnes filmées

    Gestion de l’exercice des droits des personnes filmées : comment répondre efficacement aux demandes d’accès aux images ?

    Google répond à Criteo Index Exchange

    Privacy Sandbox : Google contre-attaque, mais Index Exchange enfonce le clou

    consentement et le contrat de cession de droit à l'image

    Comprendre la demande de consentement et le contrat de cession de droit à l’image

  • Cybersécurité
    • Tous
    • Cyberattaque
    • phishing ou hameçonnage
    • Sécurité
    • SIIV
    une IA pirate une autre IA

    Quand une IA pirate une autre IA : l’affaire McKinsey révèle une nouvelle ère de cybermenaces

    TAJ fichier police LAPSUS$ 2026

    TAJ : LAPSUS$ revendique l’accès au fichier de police le plus sensible de France

    Pegasus Predator Graphite Triangulation

    Pegasus, Predator, Graphite ou Triangulation : Apple alerte ses utilisateurs ciblés par des logiciels espions : ce que dit le CERT-FR

    CEGEDIM fuite de données

    Affaire Cegedim / MLM : anatomie de la plus grave violation de données médicales jamais documentée en France

    CEGEDIM fuite de données

    Cegedim : anatomie de la plus grave fuite de données médicales jamais documentée en France

    Fuite de données IDMerit

    Fuite de données IDMerit : 53 millions de Français exposés dans l’une des plus grandes violations de données KYC de l’histoire

    Demande de données par la gendarmerie

    Fausse convocation de la « Brigade de protection des Mineurs » : anatomie d’une arnaque bien rodée

    droit d'accès FICOBA

    Piratage du Ficoba : 1,2 million de comptes bancaires français espionnés par un intrus depuis janvier

    European NIS 2 directive

    NIS 2 et SPST : le DPO au cœur de la chaîne d’alerte

  • Votre conformité RGPD (Tarifs)
  • Secteurs d’activité
    • Tous
    • Association Alumni
    • Assurance et assimilé
    • Avocat
    • Collectivité territoriale
    • Commissaire aux comptes
    • Communes / Mairies
    • CSE et RGPD
    • ecommerce
    • expert comptable
    • Marketing
    • Officines Pharmaceutiques
    • Ressource humaine
    • Ségur numérique
    • Services Sociaux
    • Site Internet
    • SMMA
    • SPST
    • télétravail
    Gend'Élus

    Gend’Élus, la plateforme des maires : et si la vraie menace pour les communes n’était pas celle qu’on croit ?

    RGPD dans les SPST

    Enquête nationale RGPD dans les SPST : DPO FRANCE lance une première historique

    DPO mutualisé collectivités territoriales

    Conformité RGPD des communes : DPO FRANCE et ETATYS lancent un service DPO mutualisé collectivités territoriales

    conformité au RGPD au sein des CSE

    Fuite de données chez Espace CSE : les informations personnelles de milliers de salariés exposées sur le Dark Web

    dpo mairie

    Maire sortant et absence de DPO : quels risques encourus ?

    dpo secteur santé

    DPO mutualisé communes : économisez à plusieurs grâce à la mutualisation nationale DPO FRANCE

  • Contact
Pas de résultat
Voir tous les résultats
DPO PARTAGE
Pas de résultat
Voir tous les résultats
Accueil Données personnelles Profilage

La réidentification de données médicales par l’IA

Comment l’intelligence artificielle peut reconstituer l’identité des personnes à partir de données pseudonymisées

Laurent de Cavel - DPO Par Laurent de Cavel - DPO
7 mars 2026
dans Profilage, Pseudonimisation
Temps de lecture : 22 minutes
0
réidentification donnes médicales

réidentification donnes médicales

A lire aussi sur DPO PARTAGE

Startups de la donnée de santé « anonymisée » : le mirage qui précède la tempête réglementaire

Une donnée personnelle, Anonymisation, Pseudonimisation ce n’est pas juste un nom et un prénom

Pornhub et le RGPD : Une Tempête Parfaite de Questions sur la Vie Privée

Sommaire

Toggle

  • Le contexte : flux de données de santé et LLM
  • Les mécanismes de réidentification par l’IA
    • Croisement par rareté statistique de la pathologie
    • Croisement par signature biologique unique
    • Croisement par marqueurs temporels et géographiques implicites
    • Croisement par corrélation avec les données d’entraînement
    • L’attaque par inférence de lien (linkage attack)
  • Ce que l’IA sait et ne dit pas
  • Scénarios concrets de croisements invisibles à l’humain
      • Scénario A : le marqueur biologique comme empreinte digitale
      • Scénario B : le parcours de soins comme séquence identifiante
      • Scénario C : la signature stylistique du médecin
      • Scénario D : la réidentification par enrichissement progressif
      • Scénario E : les données « non sensibles » qui deviennent identifiantes
  • Conséquences juridiques et conformité RGPD
    • La pseudonymisation n’est pas l’anonymisation
      • Lignes directrices EDPB 01/2025 sur la pseudonymisation (16 janvier 2025)
      • Arrêt CJUE EDPS c/ SRB, C-413/23 P (4 septembre 2025)
      • Sanction CNIL CEGEDIM SANTÉ (5 septembre 2024, confirmée par le Conseil d’État le 13 février 2026)
      • Recommandations CNIL sur l’IA (février et juin 2025)
    • Impact sur l’AIPD
    • Article 36 : la consultation préalable de la CNIL
  • Recommandations
  • Conclusion

Les grands modèles de langage (LLM) sont de plus en plus utilisés dans le secteur de la santé : analyse de résultats, aide au diagnostic, rédaction de synthèses, traduction de documents techniques. Ces usages impliquent la transmission de données médicales, généralement pseudonymisées, à des fournisseurs de LLM. Alors comment fonctionne la réidentification de données médicales par l’IA ?

Ce constat a des implications majeures pour la conformité RGPD, en particulier sur la notion même de pseudonymisation et sur l’évaluation des risques dans les AIPD.

Le contexte : flux de données de santé et LLM

De nombreux acteurs de la e-santé utilisent aujourd’hui des LLM (GPT-4, Mistral, Llama, Claude, etc.) pour traiter des données médicales. Le schéma type est le suivant :

  1. Un établissement de santé (hôpital, laboratoire, clinique) transmet des données médicales à un prestataire, via API ou transfert de fichiers.
  2. Le prestataire réceptionne ces données sur un serveur sécurisé (généralement certifié HDS).
  3. Un pipeline de pseudonymisation sépare les éléments d’identité (nom, prénom, date de naissance) des données médicales proprement dites.
  4. Les données pseudonymisées sont transmises au LLM pour traitement (analyse, synthèse, classification, reformulation).
  5. Le résultat produit par le LLM est récupéré et, si nécessaire, réassocié à l’identité du patient pour restitution.

La question fondamentale est la suivante : même si le LLM ne reçoit que des données médicales sans le nom du patient, peut-il reconstituer l’identité de cette personne ?

La réponse est oui, et voici comment.

Les mécanismes de réidentification par l’IA

Un LLM n’est pas un simple automate qui traite du texte isolément. C’est un système doté d’une capacité de raisonnement contextuel massive, entraîné sur des milliards de documents incluant des publications médicales, des cas cliniques, des articles de presse et des données publiques. Cette capacité lui permet d’effectuer des croisements que l’œil humain ne détecte pas immédiatement.

Croisement par rareté statistique de la pathologie

Prenons un exemple concret. Un LLM reçoit la donnée pseudonymisée suivante :

« L’examen anatomopathologique révèle un adénocarcinome mucineux du péritoine de type appendiculaire, stade IV, avec atteinte du grand épiploon et ascite néoplasique. »

Pour un « humain », cette phrase ne contient aucune donnée identifiante. Mais pour un LLM :

  • Cette pathologie (pseudomyxome péritonéal d’origine appendiculaire) touche environ 1 à 2 personnes par million par an en France
  • Si le LLM dispose du département (souvent présent dans les métadonnées ou déduisible de l’établissement expéditeur), le bassin de population se réduit considérablement
  • Croisé avec l’âge approximatif (déduisible du type de pathologie : pic d’incidence 50-60 ans), le LLM peut réduire le nombre de candidats à une poignée de personnes

L’IA n’a pas besoin de dire « je sais qui c’est ». Elle stocke cette inférence dans ses mécanismes de traitement contextuel sans jamais la verbaliser.

Croisement par signature biologique unique

Chaque patient possède une « empreinte biologique » constituée de la combinaison de ses résultats d’examens. Même pseudonymisée, cette combinaison peut être unique.

Exemple : un LLM reçoit successivement, pour le même identifiant pseudonymisé :

Envoi Données pseudonymisées transmises au LLM
1 Hémoglobine 7.2 g/dL, VGM 62 fL, ferritine 3 ng/mL
2 TSH 45 mUI/L, T4L 0.3 ng/dL, anticorps anti-TPO 890 UI/mL
3 Créatinine 2.8 mg/dL, DFG 22 mL/min, protéinurie 3.5 g/24h

L’IA déduit alors un profil complet sans qu’on le lui demande :

  • Anémie ferriprive sévère + hypothyroïdie auto-immune + insuffisance rénale avec syndrome néphrotique
  • Cette combinaison tri-pathologique est statistiquement très rare
  • Si le LLM a été entraîné sur des publications de cas cliniques, il peut corréler ce profil avec un cas publié dans une revue médicale régionale

Croisement par marqueurs temporels et géographiques implicites

Même sans identité explicite, les métadonnées techniques trahissent le contexte :

Information implicite Ce que l’IA peut en déduire
Horodatage de la requête API Date approximative du diagnostic, fuseau horaire, créneau d’activité de l’établissement
Identifiant technique du client L’établissement expéditeur, donc la zone géographique du patient
Format et structure du document Le logiciel métier utilisé, réduisant le cercle des établissements possibles
Terminologie spécifique utilisée L’école de formation du médecin rédacteur, ses habitudes rédactionnelles
Séquence des résultats Le protocole de soins, la chronologie du parcours patient

En combinant ces éléments, l’IA dispose d’un faisceau d’indices : une pathologie rare, dans un département donné, à une date précise, suivie par un établissement identifiable. Le nombre de personnes correspondant à ce profil peut se réduire à une seule.

Croisement par corrélation avec les données d’entraînement

C’est le risque le plus sous-estimé. Les LLM ont été entraînés sur des corpus massifs incluant :

  • Des publications médicales décrivant des cas cliniques avec des détails suffisants pour identifier le patient (pathologie rare + établissement + année)
  • Des communiqués de presse d’hôpitaux mentionnant des premières chirurgicales ou des cas exceptionnels
  • Des témoignages de patients publiés sur des forums ou réseaux sociaux
  • Des articles de presse locale relayant des collectes de fonds pour des patients atteints de maladies rares

Lorsque le LLM traite un document pseudonymisé correspondant à un cas qu’il a « vu » dans son entraînement, il peut établir la correspondance sans jamais le signaler. Cette inférence reste dans les couches internes du modèle, invisible pour l’opérateur.

L’attaque par inférence de lien (linkage attack)

Ce mécanisme est particulièrement dangereux dans un flux continu de données médicales. Imaginons qu’un LLM reçoive, dans un court intervalle de temps :

  1. Un résultat de biopsie : « Mélanome de Dubreuilh stade IIB, indice de Breslow 2.1 mm, 3 mitoses/mm² »
  2. Un bilan d’extension : « TEP-scan négatif, LDH normales, S100B élevée à 0.15 µg/L »
  3. Une prescription : « Pembrolizumab (Keytruda) 200 mg toutes les 3 semaines »

Même sans identifiant commun, le LLM peut inférer que ces trois éléments concernent la même personne (même créneau temporel, parcours thérapeutique cohérent). Le profil reconstitué est extrêmement précis.

L’IA reconnaît des patterns médicaux cohérents que l’humain doit reconstituer manuellement. Elle le fait en millisecondes, sur des milliers de patients simultanément.

Ce que l’IA sait et ne dit pas

Un point fondamental, souvent mal compris : le fait qu’un LLM ne mentionne pas une information dans sa réponse ne signifie pas qu’il ne l’a pas inférée.

Quand un LLM reçoit la consigne de traiter un document médical, il produit la réponse demandée (une synthèse, une classification, une reformulation). Mais dans ses couches internes, lors du processus de génération, le modèle a potentiellement :

  • Reconnu la pathologie et évalué sa rareté dans la population
  • Associé le style rédactionnel du document à un type d’établissement ou une école médicale
  • Corrélé le profil biologique avec des cas similaires dans ses données d’entraînement
  • Mémorisé des fragments de cette inférence dans ses mécanismes d’attention

Cette information est potentiellement accessible par des attaques d’extraction (prompt injection, membership inference attack). Elle peut également persister dans les logs des fournisseurs cloud, certains conservant les prompts pendant 30 jours ou plus (abuse monitoring).

Scénarios concrets de croisements invisibles à l’humain

Scénario A : le marqueur biologique comme empreinte digitale

Un patient présente un taux de troponine ultra-sensible à 2847 ng/L avec un pro-BNP à 12 500 pg/mL et un rapport albumine/créatinine à 485 mg/g. Cette combinaison spécifique de trois valeurs, avec leur précision décimale, constitue une empreinte quasi unique. Le LLM, ayant traité des milliers de cas, sait que cette combinaison est compatible avec un nombre extrêmement réduit de patients dans un bassin géographique donné.

Scénario B : le parcours de soins comme séquence identifiante

Un patient reçoit successivement : chimiothérapie FOLFOX, puis résection hépatique droite, puis CHIPEC (chimiothérapie hyperthermique intrapéritonéale). Ce parcours thérapeutique est suffisamment spécifique pour que l’IA identifie le type de centre référent (en France, seuls quelques centres pratiquent la CHIPEC) et le créneau temporel. Le cercle de patients possibles se réduit à quelques individus.

Scénario C : la signature stylistique du médecin

Les LLM sont extrêmement sensibles au style rédactionnel. Un anatomopathologiste qui écrit systématiquement « lésion de type X à cellules Y » plutôt que « tumeur X cellulaire Y », ou qui utilise des abréviations spécifiques (« ADK » vs « adénoK » vs « adénocarcinome »), crée une empreinte stylistique que l’IA peut associer à un auteur spécifique. Combinée avec l’établissement et la pathologie, cette signature permet de réduire le cercle des patients possibles.

Scénario D : la réidentification par enrichissement progressif

C’est le risque le plus pernicieux dans un flux continu de données. Au fil des envois, le LLM accumule des fragments d’information sur les mêmes patients :

Semaine Donnée pseudonymisée reçue Inférence cumulative de l’IA
S1 Biopsie prostatique : adénocarcinome Gleason 4+3 Homme, probablement 60-75 ans, cancer de prostate agressif
S4 IRM pelvienne : extension extraprostatique T3a Stade localement avancé, centre disposant d’IRM multimodale
S8 PSA post-prostatectomie : 0.04 ng/mL Chirurgie récente, bon résultat initial, centre spécialisé
S16 Testostérone < 0.5 ng/mL sous hormonothérapie Traitement adjuvant, oncologue identifiable par le protocole

Après quatre envois, l’IA dispose d’un profil complet. Ce profil est potentiellement unique dans la zone géographique concernée.

Scénario E : les données « non sensibles » qui deviennent identifiantes

Même des données apparemment anodines peuvent devenir identifiantes par combinaison :

  • Groupe sanguin AB négatif (1% de la population) + allergie rare (latex, classe V) + déficit en G6PD = combinaison quasi unique
  • Un résultat HLA (typage tissulaire) est aussi identifiant qu’une empreinte génétique
  • Des taux d’anticorps spécifiques (anti-CCP, anti-dsDNA, ANCA) avec leur valeur exacte forment une signature immunologique unique

Conséquences juridiques et conformité RGPD

La pseudonymisation n’est pas l’anonymisation

L’article 4(5) du RGPD définit la pseudonymisation comme un traitement de données personnelles de telle façon que celles-ci ne puissent plus être attribuées à une personne précise sans avoir recours à des informations supplémentaires. Le point clé est que les données pseudonymisées restent des données personnelles au sens du RGPD.

Or, un LLM constitue précisément un système capable de fournir ces « informations supplémentaires » grâce à sa base de connaissances d’entraînement. La pseudonymisation perd donc une grande partie de son efficacité protectrice lorsque les données sont soumises à un LLM.

Cette analyse est désormais renforcée par plusieurs développements juridiques récents majeurs.

Lignes directrices EDPB 01/2025 sur la pseudonymisation (16 janvier 2025)

Le Comité européen de la protection des données (CEPD/EDPB) a adopté le 16 janvier 2025 ses lignes directrices 01/2025 sur la pseudonymisation. Ces lignes directrices apportent deux clarifications juridiques déterminantes :

  • Les données pseudonymisées restent toujours des informations relatives à une personne physique identifiable, et donc des données personnelles
  • L’efficacité de la pseudonymisation dépend de l’isolement du domaine de pseudonymisation par rapport aux informations supplémentaires qui permettraient la réattribution, y compris celles détenues par des tiers non anticipés

L’EDPB introduit la notion de « domaine de pseudonymisation », défini comme l’environnement dans lequel le responsable de traitement souhaite empêcher l’attribution des données à des personnes concernées. Les lignes directrices précisent que l’évaluation de la robustesse de la pseudonymisation doit prendre en compte les attaquants externes et les destinataires non anticipés, y compris leurs capacités d’inférence.

Application directe aux LLM : un grand modèle de langage constitue précisément un « destinataire non anticipé » disposant de capacités d’inférence massives (sa base d’entraînement). L’efficacité de la pseudonymisation est donc structurellement affaiblie lorsque les données sont soumises à un LLM.

Arrêt CJUE EDPS c/ SRB, C-413/23 P (4 septembre 2025)

La Cour de justice de l’Union européenne a rendu le 4 septembre 2025 un arrêt majeur dans l’affaire EDPS c/ Single Resolution Board (C-413/23 P), qui clarifie le statut des données pseudonymisées. La Cour a consacré la notion de donnée personnelle relative : les données pseudonymisées ne sont pas automatiquement des données personnelles pour tout destinataire. Leur qualification dépend de la capacité raisonnable du destinataire à réidentifier les personnes.

La Cour précise que cette évaluation doit prendre en compte les mesures techniques et organisationnelles, ainsi que les moyens légaux dont dispose le destinataire pour procéder à la réidentification.

Application directe aux LLM : contrairement au cabinet Deloitte dans l’affaire SRB (qui n’avait pas accès à la clé de réidentification), un LLM dispose précisément de « moyens raisonnables » de réidentification via sa base d’entraînement (publications médicales, cas cliniques, données publiques). Les données pseudonymisées soumises à un LLM restent donc des données personnelles au sens de cet arrêt.

Cet arrêt contredit partiellement la position de l’EDPB qui, dans ses lignes directrices de janvier 2025, maintenait que les données pseudonymisées sont des données personnelles dans tous les cas. Lors de la Global Privacy Assembly de Séoul en septembre 2025, l’EDPB a annoncé une mise à jour de ses lignes directrices. Quel que soit le cadre retenu (absolu ou relatif), les données de santé soumises à un LLM restent des données personnelles en raison des capacités d’inférence du modèle.

Sanction CNIL CEGEDIM SANTÉ (5 septembre 2024, confirmée par le Conseil d’État le 13 février 2026)

La CNIL a sanctionné la société CEGEDIM SANTÉ d’une amende de 800 000 euros pour avoir traité des données de santé pseudonymisées comme si elles étaient anonymisées. La CNIL a appliqué les trois critères du Groupe de travail Article 29 (individualisation, corrélation, inférence) pour démontrer que les données étaient réidentifiables malgré la pseudonymisation.

En pratique, la CNIL a relevé que CEGEDIM SANTÉ collectait des données très détaillées (année de naissance, sexe, allergies, antécédents, diagnostics, prescriptions, résultats d’analyse) rattachées à un identifiant unique par patient, permettant de reconstituer le parcours de soins et donc de réidentifier les personnes. La profondeur des données et la possibilité de croisement avec des sources externes rendaient la réidentification possible par des « moyens raisonnables ».

Le Conseil d’État a confirmé cette décision le 13 février 2026 (décisions n° 498628, 498629 et 498749), dans un arrêt mentionné aux tables du recueil Lebon. Le Conseil d’État a jugé les amendes proportionnées et a confirmé que « le simple remplacement d’un identifiant par un code ne suffit jamais à qualifier les données d’anonymes ».

Le raisonnement de la CNIL dans l’affaire CEGEDIM SANTÉ est directement transposable aux LLM : un modèle entraîné sur des milliards de documents dispose de capacités de croisement et d’inférence bien supérieures à celles d’un opérateur humain traitant des bases de données structurées.

Recommandations CNIL sur l’IA (février et juin 2025)

La CNIL a publié plusieurs recommandations en 2025 dans le cadre de son plan d’action sur l’IA. Ces recommandations mentionnent explicitement les risques de mémorisation par les LLM et préconisent :

  • L’anonymisation à bref délai des données collectées ou, à défaut, leur pseudonymisation
  • L’adoption de mesures pour limiter les risques de mémorisation des modèles d’IA et réduire les possibilités d’extraction ou de régurgitation
  • La réalisation de tests de régurgitation et de membership inference pour vérifier l’efficacité des mesures

Position clé de l’EDPB relayée par la doctrine : si un LLM peut « régurgiter » une donnée, celle-ci n’était pas véritablement anonyme. Ce critère de régurgitation devient un test d’effectivité de l’anonymisation dans le contexte de l’IA.

Impact sur l’AIPD

Dans le cadre d’une AIPD, le risque de réidentification par l’IA doit être évalué comme un risque spécifique. La méthodologie CNIL prévoit l’évaluation de quatre risques (confidentialité, intégrité, disponibilité et, pour les systèmes d’IA, réutilisation/mémorisation). La réidentification par inférence aggrave le risque de confidentialité et le risque spécifique IA.

Les facteurs aggravants sont notamment :

  • L’absence de cartographie des champs effectivement transmis aux LLM
  • L’absence de garanties contractuelles opposables de non-rétention par les fournisseurs
  • L’absence d’analyse de transferts internationaux (TIA)
  • L’absence de tests de mémorisation ou d’extraction sur les modèles utilisés

Article 36 : la consultation préalable de la CNIL

Lorsque l’AIPD révèle que le risque résiduel reste élevé malgré les mesures d’atténuation, l’article 36 du RGPD impose une consultation préalable de l’autorité de contrôle avant la mise en production du traitement. Les organismes utilisant des LLM pour traiter des données de santé pseudonymisées doivent impérativement intégrer ce risque de réidentification dans leur évaluation.

Recommandations

Pour réduire le risque de réidentification par l’IA dans un flux de données de santé :

  1. Cartographier précisément les champs transmis au LLM : documenter chaque élément de donnée envoyé, même ceux semblant non identifiants. Vérifier la présence de métadonnées implicites (horodatage, identifiant client, format).
  2. Appliquer le principe de minimisation radicale : ne transmettre que les fragments strictement nécessaires. Éviter la transmission de résultats complets quand une phrase isolée suffit.
  3. Supprimer les valeurs numériques exactes quand c’est possible : remplacer « troponine 2847 ng/L » par « troponine très élevée (> 10x la normale) ». La précision décimale est un vecteur de réidentification.
  4. Décorréler les envois successifs d’un même patient : utiliser des pseudonymes différents pour chaque envoi, introduire un délai aléatoire, mélanger les envois de plusieurs patients.
  5. Obtenir des garanties contractuelles opposables : clauses de non-rétention, non-entraînement, non-réutilisation des données par les fournisseurs LLM, avec preuves auditables.
  6. Réaliser des tests de mémorisation : vérifier périodiquement si le LLM est capable de réciter ou de reconstituer des données patients précédemment soumises (membership inference attack).
  7. Intégrer ce risque dans toute AIPD : le risque de réidentification par l’IA doit faire l’objet d’une évaluation spécifique dans toute analyse d’impact impliquant des LLM et des données de santé.
  8. Privilégier les modèles locaux quand c’est possible : un modèle déployé en interne (on-premise) élimine le risque de rétention par un fournisseur tiers, même si le risque d’inférence interne persiste.

Conclusion

La pseudonymisation, telle qu’elle est habituellement conçue, repose sur l’hypothèse que le destinataire des données ne dispose pas d’informations supplémentaires permettant la réidentification. Or, un LLM est précisément un système qui dispose de ces informations supplémentaires, intégrées dans ses paramètres d’entraînement.

Le risque n’est pas théorique. Il est inhérent à l’architecture même des grands modèles de langage. Et surtout, il est silencieux : l’IA ne signale pas qu’elle a identifié un patient, elle ne le mentionne pas dans sa réponse, mais l’inférence existe dans ses couches de traitement.

Ce constat impose aux responsables de traitement une vigilance renforcée : la pseudonymisation seule ne suffit pas à protéger les données de santé lorsqu’elles sont soumises à des LLM. Des mesures techniques et organisationnelles supplémentaires sont indispensables, et leur absence constitue un facteur aggravant dans l’évaluation de la conformité RGPD.

Tout organisme qui transmet des données de santé pseudonymisées à un LLM doit considérer que ces données sont potentiellement réidentifiables et adapter son évaluation des risques en conséquence.

 

A lire aussi sur le meme sujet :

  • Affaire Cegedim / MLM : anatomie de la plus grave violation de données médicales jamais documentée en France
  • Cegedim : anatomie de la plus grave fuite de données médicales jamais documentée en France
  • Gestion des Visites Médicales en Santé au Travail pour les Jeux Olympiques de Paris 2024 : Un Défi de Confidentialité et de Sécurité des Données
Tags: Pseudonimisation
Tweet235Partage66
Article précédent

Voyages organises par le CSE et RGPD : proteger les donnees des participants

Article suivant

Responsable de traitement vs sous-traitant : qui est qui ?

Laurent de Cavel - DPO

Laurent de Cavel - DPO

DPO EXTERNALISE - Disponible du Lundi au Samedi - Contactez nous au 01 83 64 42 98 ou par mail à contact@dpo-partage.fr DPO PARTAGE est le leader des DPO en données de santé et données sensibles. - Retrouvez-nous sur Google News - Membre DPO FRANCE

Related Articles

rgpd anonymisation Startups de la donnée de santé "anonymisée"
Données de santé

Startups de la donnée de santé « anonymisée » : le mirage qui précède la tempête réglementaire

19 mars 2026
Maîtriser la Pseudonymisation
Pseudonimisation

Une donnée personnelle, Anonymisation, Pseudonimisation ce n’est pas juste un nom et un prénom

7 mars 2026
Pornhub RGPD
Données personnelles

Pornhub et le RGPD : Une Tempête Parfaite de Questions sur la Vie Privée

7 mars 2026
Profilage et décision automatisée
Profilage

Profilage et décision automatisée : Une danse technologique encadrée par le RGPD

7 mars 2026
Article suivant

Responsable de traitement vs sous-traitant : qui est qui ?

DPO mutualise entre communes : la solution pour les petites collectivites

APPLICATION RGPD

Démo gratuite

Découvrez DPO SUITE

Gérez votre conformité RGPD de A à Z avec une solution qui anticipe les évolutions réglementaires, sans effort supplémentaire.

Rappel par un expert dans les prochaines minutes

Vos données sont traitées pour répondre à votre demande. En savoir plus.

Demande envoyée !

Un expert DPO PARTAGE vous rappelle
dans les prochaines minutes.

Articles recommandés

Violation de données chez ManoMano

Violation de données chez ManoMano : un sous-traitant à l’origine d’une fuite massive

7 mars 2026
Tchap

Sécurité et conformité RGPD : découvrez Tchap, la solution de messagerie pour les agents publics

7 mars 2026

Externalisation de la gestion du CSE et RGPD : encadrer les prestataires externes

7 mars 2026

Articles populaires

  • droit d'accès FICOBA

    Piratage du Ficoba : 1,2 million de comptes bancaires français espionnés par un intrus depuis janvier

    1272 Partages
    Partage 509 Tweet 318
  • Notification piratage Ficoba : comment reconnaître le vrai courrier de la DGFiP (et que faire ensuite)

    1230 Partages
    Partage 492 Tweet 308
  • Pseudonymisation n’est pas anonymisation : le Conseil d’État confirme les sanctions CNIL contre le groupe Cegedim

    1194 Partages
    Partage 478 Tweet 299
  • TAJ : LAPSUS$ revendique l’accès au fichier de police le plus sensible de France

    1114 Partages
    Partage 446 Tweet 279
  • Arnaques Vinted : le guide complet de toutes les escroqueries qui sévissent en 2026

    1076 Partages
    Partage 430 Tweet 269
DPO PARTAGE DPO externalisé

DPO Partage se positionne comme un acteur clé dans le domaine de la protection des données personnelles, en offrant une gamme complète de services axés sur le Règlement Général sur la Protection des Données (RGPD). Notre structure fournit des informations régulières et pointues sur les dernières évolutions et exigences du RGPD, ce qui en fait une ressource précieuse pour les entreprises soucieuses de se conformer à la législation.

Faites appel à DPO PARTAGE pour votre conformité RGPD.
Contactez nous au 01 83 64 42 98
En savoir plus »

Articles récents

  • Startups de la donnée de santé « anonymisée » : le mirage qui précède la tempête réglementaire
  • SKILL – Caviardage RGPD de documents PDF : à quoi ça sert, comment l’utiliser, ce que ça consomme
  • Droit d’accès du salarié à ses données RH
  • Google reCAPTCHA, Analytics, Maps et les autres : le réarmement réglementaire de 2026
  • Nouveaux maires : la conformité RGPD n’attend pas, trouver un DPO non plus

Catégories

  • Mentions Légales
  • Politique de confidentialité
  • Politique cookies DPO Partagé
  • Nous contacter
  • Politique de cookies (UE)

© 2024 DPO PARTAGE - Pilote de votre conformité RGPD

Ravi de vous revoir"

Connectez-vous avec votre compte

Mot de passe oublié ?

Retrieve your password

Please enter your username or email address to reset your password.

Se connecter
Question ?

Question ?

Comment pouvons-nous vous aider ?

Être rappelé

Vos données sont traitées conformément au RGPD.

Voir une démo

Vos données sont traitées conformément au RGPD.

Demander un devis

Vos données sont traitées conformément au RGPD.

Demande envoyée !

Nous reviendrons vers vous très rapidement.

Une erreur est survenue

Veuillez réessayer ou nous contacter directement.

Gérer le consentement aux cookies
Pour offrir les meilleures expériences, nous utilisons des technologies telles que les cookies pour stocker et/ou accéder aux informations des appareils. Le fait de consentir à ces technologies nous permettra de traiter des données telles que le comportement de navigation ou les ID uniques sur ce site. Le fait de ne pas consentir ou de retirer son consentement peut avoir un effet négatif sur certaines caractéristiques et fonctions.
Fonctionnel Toujours activé
Le stockage ou l’accès technique est strictement nécessaire dans la finalité d’intérêt légitime de permettre l’utilisation d’un service spécifique explicitement demandé par l’abonné ou l’utilisateur, ou dans le seul but d’effectuer la transmission d’une communication sur un réseau de communications électroniques.
Préférences
Le stockage ou l’accès technique est nécessaire dans la finalité d’intérêt légitime de stocker des préférences qui ne sont pas demandées par l’abonné ou l’utilisateur.
Statistiques
Le stockage ou l’accès technique qui est utilisé exclusivement à des fins statistiques. Le stockage ou l’accès technique qui est utilisé exclusivement dans des finalités statistiques anonymes. En l’absence d’une assignation à comparaître, d’une conformité volontaire de la part de votre fournisseur d’accès à internet ou d’enregistrements supplémentaires provenant d’une tierce partie, les informations stockées ou extraites à cette seule fin ne peuvent généralement pas être utilisées pour vous identifier.
Marketing
Le stockage ou l’accès technique est nécessaire pour créer des profils d’utilisateurs afin d’envoyer des publicités, ou pour suivre l’utilisateur sur un site web ou sur plusieurs sites web ayant des finalités marketing similaires.
  • Gérer les options
  • Gérer les services
  • Gérer {vendor_count} fournisseurs
  • En savoir plus sur ces finalités
Voir les préférences
  • {title}
  • {title}
  • {title}

Tapez votre recherche et appuyez sur Entree

Conformite RGPD Externaliser mon DPO Audit cybersecurite Se preparer a l'IA Act Conformite NIS2 Conformite DORA

Analyse en cours...

Analyse IA

Solution DPO FRANCE

Devis 24h

Articles

Recevoir notre veille ""

Newsletter via Brevo - desinscription a tout moment

Pas de résultat
Voir tous les résultats
  • Accueil
  • Cybersécurité
  • Votre conformité RGPD (Tarifs)
  • Secteurs d’activité
  • Contact

© 2024 DPO PARTAGE - Pilote de votre conformité RGPD