Les grands modèles de langage (LLM) sont de plus en plus utilisés dans le secteur de la santé : analyse de résultats, aide au diagnostic, rédaction de synthèses, traduction de documents techniques. Ces usages impliquent la transmission de données médicales, généralement pseudonymisées, à des fournisseurs de LLM. Alors comment fonctionne la réidentification de données médicales par l’IA ?
Ce constat a des implications majeures pour la conformité RGPD, en particulier sur la notion même de pseudonymisation et sur l’évaluation des risques dans les AIPD.
Le contexte : flux de données de santé et LLM
De nombreux acteurs de la e-santé utilisent aujourd’hui des LLM (GPT-4, Mistral, Llama, Claude, etc.) pour traiter des données médicales. Le schéma type est le suivant :
- Un établissement de santé (hôpital, laboratoire, clinique) transmet des données médicales à un prestataire, via API ou transfert de fichiers.
- Le prestataire réceptionne ces données sur un serveur sécurisé (généralement certifié HDS).
- Un pipeline de pseudonymisation sépare les éléments d’identité (nom, prénom, date de naissance) des données médicales proprement dites.
- Les données pseudonymisées sont transmises au LLM pour traitement (analyse, synthèse, classification, reformulation).
- Le résultat produit par le LLM est récupéré et, si nécessaire, réassocié à l’identité du patient pour restitution.
La question fondamentale est la suivante : même si le LLM ne reçoit que des données médicales sans le nom du patient, peut-il reconstituer l’identité de cette personne ?
La réponse est oui, et voici comment.
Les mécanismes de réidentification par l’IA
Un LLM n’est pas un simple automate qui traite du texte isolément. C’est un système doté d’une capacité de raisonnement contextuel massive, entraîné sur des milliards de documents incluant des publications médicales, des cas cliniques, des articles de presse et des données publiques. Cette capacité lui permet d’effectuer des croisements que l’œil humain ne détecte pas immédiatement.
Croisement par rareté statistique de la pathologie
Prenons un exemple concret. Un LLM reçoit la donnée pseudonymisée suivante :
« L’examen anatomopathologique révèle un adénocarcinome mucineux du péritoine de type appendiculaire, stade IV, avec atteinte du grand épiploon et ascite néoplasique. »
Pour un « humain », cette phrase ne contient aucune donnée identifiante. Mais pour un LLM :
- Cette pathologie (pseudomyxome péritonéal d’origine appendiculaire) touche environ 1 à 2 personnes par million par an en France
- Si le LLM dispose du département (souvent présent dans les métadonnées ou déduisible de l’établissement expéditeur), le bassin de population se réduit considérablement
- Croisé avec l’âge approximatif (déduisible du type de pathologie : pic d’incidence 50-60 ans), le LLM peut réduire le nombre de candidats à une poignée de personnes
L’IA n’a pas besoin de dire « je sais qui c’est ». Elle stocke cette inférence dans ses mécanismes de traitement contextuel sans jamais la verbaliser.
Croisement par signature biologique unique
Chaque patient possède une « empreinte biologique » constituée de la combinaison de ses résultats d’examens. Même pseudonymisée, cette combinaison peut être unique.
Exemple : un LLM reçoit successivement, pour le même identifiant pseudonymisé :
| Envoi | Données pseudonymisées transmises au LLM |
| 1 | Hémoglobine 7.2 g/dL, VGM 62 fL, ferritine 3 ng/mL |
| 2 | TSH 45 mUI/L, T4L 0.3 ng/dL, anticorps anti-TPO 890 UI/mL |
| 3 | Créatinine 2.8 mg/dL, DFG 22 mL/min, protéinurie 3.5 g/24h |
L’IA déduit alors un profil complet sans qu’on le lui demande :
- Anémie ferriprive sévère + hypothyroïdie auto-immune + insuffisance rénale avec syndrome néphrotique
- Cette combinaison tri-pathologique est statistiquement très rare
- Si le LLM a été entraîné sur des publications de cas cliniques, il peut corréler ce profil avec un cas publié dans une revue médicale régionale
Croisement par marqueurs temporels et géographiques implicites
Même sans identité explicite, les métadonnées techniques trahissent le contexte :
| Information implicite | Ce que l’IA peut en déduire |
| Horodatage de la requête API | Date approximative du diagnostic, fuseau horaire, créneau d’activité de l’établissement |
| Identifiant technique du client | L’établissement expéditeur, donc la zone géographique du patient |
| Format et structure du document | Le logiciel métier utilisé, réduisant le cercle des établissements possibles |
| Terminologie spécifique utilisée | L’école de formation du médecin rédacteur, ses habitudes rédactionnelles |
| Séquence des résultats | Le protocole de soins, la chronologie du parcours patient |
En combinant ces éléments, l’IA dispose d’un faisceau d’indices : une pathologie rare, dans un département donné, à une date précise, suivie par un établissement identifiable. Le nombre de personnes correspondant à ce profil peut se réduire à une seule.
Croisement par corrélation avec les données d’entraînement
C’est le risque le plus sous-estimé. Les LLM ont été entraînés sur des corpus massifs incluant :
- Des publications médicales décrivant des cas cliniques avec des détails suffisants pour identifier le patient (pathologie rare + établissement + année)
- Des communiqués de presse d’hôpitaux mentionnant des premières chirurgicales ou des cas exceptionnels
- Des témoignages de patients publiés sur des forums ou réseaux sociaux
- Des articles de presse locale relayant des collectes de fonds pour des patients atteints de maladies rares
Lorsque le LLM traite un document pseudonymisé correspondant à un cas qu’il a « vu » dans son entraînement, il peut établir la correspondance sans jamais le signaler. Cette inférence reste dans les couches internes du modèle, invisible pour l’opérateur.
L’attaque par inférence de lien (linkage attack)
Ce mécanisme est particulièrement dangereux dans un flux continu de données médicales. Imaginons qu’un LLM reçoive, dans un court intervalle de temps :
- Un résultat de biopsie : « Mélanome de Dubreuilh stade IIB, indice de Breslow 2.1 mm, 3 mitoses/mm² »
- Un bilan d’extension : « TEP-scan négatif, LDH normales, S100B élevée à 0.15 µg/L »
- Une prescription : « Pembrolizumab (Keytruda) 200 mg toutes les 3 semaines »
Même sans identifiant commun, le LLM peut inférer que ces trois éléments concernent la même personne (même créneau temporel, parcours thérapeutique cohérent). Le profil reconstitué est extrêmement précis.
L’IA reconnaît des patterns médicaux cohérents que l’humain doit reconstituer manuellement. Elle le fait en millisecondes, sur des milliers de patients simultanément.
Ce que l’IA sait et ne dit pas
Un point fondamental, souvent mal compris : le fait qu’un LLM ne mentionne pas une information dans sa réponse ne signifie pas qu’il ne l’a pas inférée.
Quand un LLM reçoit la consigne de traiter un document médical, il produit la réponse demandée (une synthèse, une classification, une reformulation). Mais dans ses couches internes, lors du processus de génération, le modèle a potentiellement :
- Reconnu la pathologie et évalué sa rareté dans la population
- Associé le style rédactionnel du document à un type d’établissement ou une école médicale
- Corrélé le profil biologique avec des cas similaires dans ses données d’entraînement
- Mémorisé des fragments de cette inférence dans ses mécanismes d’attention
Cette information est potentiellement accessible par des attaques d’extraction (prompt injection, membership inference attack). Elle peut également persister dans les logs des fournisseurs cloud, certains conservant les prompts pendant 30 jours ou plus (abuse monitoring).
Scénarios concrets de croisements invisibles à l’humain
Scénario A : le marqueur biologique comme empreinte digitale
Un patient présente un taux de troponine ultra-sensible à 2847 ng/L avec un pro-BNP à 12 500 pg/mL et un rapport albumine/créatinine à 485 mg/g. Cette combinaison spécifique de trois valeurs, avec leur précision décimale, constitue une empreinte quasi unique. Le LLM, ayant traité des milliers de cas, sait que cette combinaison est compatible avec un nombre extrêmement réduit de patients dans un bassin géographique donné.
Scénario B : le parcours de soins comme séquence identifiante
Un patient reçoit successivement : chimiothérapie FOLFOX, puis résection hépatique droite, puis CHIPEC (chimiothérapie hyperthermique intrapéritonéale). Ce parcours thérapeutique est suffisamment spécifique pour que l’IA identifie le type de centre référent (en France, seuls quelques centres pratiquent la CHIPEC) et le créneau temporel. Le cercle de patients possibles se réduit à quelques individus.
Scénario C : la signature stylistique du médecin
Les LLM sont extrêmement sensibles au style rédactionnel. Un anatomopathologiste qui écrit systématiquement « lésion de type X à cellules Y » plutôt que « tumeur X cellulaire Y », ou qui utilise des abréviations spécifiques (« ADK » vs « adénoK » vs « adénocarcinome »), crée une empreinte stylistique que l’IA peut associer à un auteur spécifique. Combinée avec l’établissement et la pathologie, cette signature permet de réduire le cercle des patients possibles.
Scénario D : la réidentification par enrichissement progressif
C’est le risque le plus pernicieux dans un flux continu de données. Au fil des envois, le LLM accumule des fragments d’information sur les mêmes patients :
| Semaine | Donnée pseudonymisée reçue | Inférence cumulative de l’IA |
| S1 | Biopsie prostatique : adénocarcinome Gleason 4+3 | Homme, probablement 60-75 ans, cancer de prostate agressif |
| S4 | IRM pelvienne : extension extraprostatique T3a | Stade localement avancé, centre disposant d’IRM multimodale |
| S8 | PSA post-prostatectomie : 0.04 ng/mL | Chirurgie récente, bon résultat initial, centre spécialisé |
| S16 | Testostérone < 0.5 ng/mL sous hormonothérapie | Traitement adjuvant, oncologue identifiable par le protocole |
Après quatre envois, l’IA dispose d’un profil complet. Ce profil est potentiellement unique dans la zone géographique concernée.
Scénario E : les données « non sensibles » qui deviennent identifiantes
Même des données apparemment anodines peuvent devenir identifiantes par combinaison :
- Groupe sanguin AB négatif (1% de la population) + allergie rare (latex, classe V) + déficit en G6PD = combinaison quasi unique
- Un résultat HLA (typage tissulaire) est aussi identifiant qu’une empreinte génétique
- Des taux d’anticorps spécifiques (anti-CCP, anti-dsDNA, ANCA) avec leur valeur exacte forment une signature immunologique unique
Conséquences juridiques et conformité RGPD
La pseudonymisation n’est pas l’anonymisation
L’article 4(5) du RGPD définit la pseudonymisation comme un traitement de données personnelles de telle façon que celles-ci ne puissent plus être attribuées à une personne précise sans avoir recours à des informations supplémentaires. Le point clé est que les données pseudonymisées restent des données personnelles au sens du RGPD.
Or, un LLM constitue précisément un système capable de fournir ces « informations supplémentaires » grâce à sa base de connaissances d’entraînement. La pseudonymisation perd donc une grande partie de son efficacité protectrice lorsque les données sont soumises à un LLM.
Cette analyse est désormais renforcée par plusieurs développements juridiques récents majeurs.
Lignes directrices EDPB 01/2025 sur la pseudonymisation (16 janvier 2025)
Le Comité européen de la protection des données (CEPD/EDPB) a adopté le 16 janvier 2025 ses lignes directrices 01/2025 sur la pseudonymisation. Ces lignes directrices apportent deux clarifications juridiques déterminantes :
- Les données pseudonymisées restent toujours des informations relatives à une personne physique identifiable, et donc des données personnelles
- L’efficacité de la pseudonymisation dépend de l’isolement du domaine de pseudonymisation par rapport aux informations supplémentaires qui permettraient la réattribution, y compris celles détenues par des tiers non anticipés
L’EDPB introduit la notion de « domaine de pseudonymisation », défini comme l’environnement dans lequel le responsable de traitement souhaite empêcher l’attribution des données à des personnes concernées. Les lignes directrices précisent que l’évaluation de la robustesse de la pseudonymisation doit prendre en compte les attaquants externes et les destinataires non anticipés, y compris leurs capacités d’inférence.
Application directe aux LLM : un grand modèle de langage constitue précisément un « destinataire non anticipé » disposant de capacités d’inférence massives (sa base d’entraînement). L’efficacité de la pseudonymisation est donc structurellement affaiblie lorsque les données sont soumises à un LLM.
Arrêt CJUE EDPS c/ SRB, C-413/23 P (4 septembre 2025)
La Cour de justice de l’Union européenne a rendu le 4 septembre 2025 un arrêt majeur dans l’affaire EDPS c/ Single Resolution Board (C-413/23 P), qui clarifie le statut des données pseudonymisées. La Cour a consacré la notion de donnée personnelle relative : les données pseudonymisées ne sont pas automatiquement des données personnelles pour tout destinataire. Leur qualification dépend de la capacité raisonnable du destinataire à réidentifier les personnes.
La Cour précise que cette évaluation doit prendre en compte les mesures techniques et organisationnelles, ainsi que les moyens légaux dont dispose le destinataire pour procéder à la réidentification.
Application directe aux LLM : contrairement au cabinet Deloitte dans l’affaire SRB (qui n’avait pas accès à la clé de réidentification), un LLM dispose précisément de « moyens raisonnables » de réidentification via sa base d’entraînement (publications médicales, cas cliniques, données publiques). Les données pseudonymisées soumises à un LLM restent donc des données personnelles au sens de cet arrêt.
Cet arrêt contredit partiellement la position de l’EDPB qui, dans ses lignes directrices de janvier 2025, maintenait que les données pseudonymisées sont des données personnelles dans tous les cas. Lors de la Global Privacy Assembly de Séoul en septembre 2025, l’EDPB a annoncé une mise à jour de ses lignes directrices. Quel que soit le cadre retenu (absolu ou relatif), les données de santé soumises à un LLM restent des données personnelles en raison des capacités d’inférence du modèle.
Sanction CNIL CEGEDIM SANTÉ (5 septembre 2024, confirmée par le Conseil d’État le 13 février 2026)
La CNIL a sanctionné la société CEGEDIM SANTÉ d’une amende de 800 000 euros pour avoir traité des données de santé pseudonymisées comme si elles étaient anonymisées. La CNIL a appliqué les trois critères du Groupe de travail Article 29 (individualisation, corrélation, inférence) pour démontrer que les données étaient réidentifiables malgré la pseudonymisation.
En pratique, la CNIL a relevé que CEGEDIM SANTÉ collectait des données très détaillées (année de naissance, sexe, allergies, antécédents, diagnostics, prescriptions, résultats d’analyse) rattachées à un identifiant unique par patient, permettant de reconstituer le parcours de soins et donc de réidentifier les personnes. La profondeur des données et la possibilité de croisement avec des sources externes rendaient la réidentification possible par des « moyens raisonnables ».
Le Conseil d’État a confirmé cette décision le 13 février 2026 (décisions n° 498628, 498629 et 498749), dans un arrêt mentionné aux tables du recueil Lebon. Le Conseil d’État a jugé les amendes proportionnées et a confirmé que « le simple remplacement d’un identifiant par un code ne suffit jamais à qualifier les données d’anonymes ».
Le raisonnement de la CNIL dans l’affaire CEGEDIM SANTÉ est directement transposable aux LLM : un modèle entraîné sur des milliards de documents dispose de capacités de croisement et d’inférence bien supérieures à celles d’un opérateur humain traitant des bases de données structurées.
Recommandations CNIL sur l’IA (février et juin 2025)
La CNIL a publié plusieurs recommandations en 2025 dans le cadre de son plan d’action sur l’IA. Ces recommandations mentionnent explicitement les risques de mémorisation par les LLM et préconisent :
- L’anonymisation à bref délai des données collectées ou, à défaut, leur pseudonymisation
- L’adoption de mesures pour limiter les risques de mémorisation des modèles d’IA et réduire les possibilités d’extraction ou de régurgitation
- La réalisation de tests de régurgitation et de membership inference pour vérifier l’efficacité des mesures
Position clé de l’EDPB relayée par la doctrine : si un LLM peut « régurgiter » une donnée, celle-ci n’était pas véritablement anonyme. Ce critère de régurgitation devient un test d’effectivité de l’anonymisation dans le contexte de l’IA.
Impact sur l’AIPD
Dans le cadre d’une AIPD, le risque de réidentification par l’IA doit être évalué comme un risque spécifique. La méthodologie CNIL prévoit l’évaluation de quatre risques (confidentialité, intégrité, disponibilité et, pour les systèmes d’IA, réutilisation/mémorisation). La réidentification par inférence aggrave le risque de confidentialité et le risque spécifique IA.
Les facteurs aggravants sont notamment :
- L’absence de cartographie des champs effectivement transmis aux LLM
- L’absence de garanties contractuelles opposables de non-rétention par les fournisseurs
- L’absence d’analyse de transferts internationaux (TIA)
- L’absence de tests de mémorisation ou d’extraction sur les modèles utilisés
Article 36 : la consultation préalable de la CNIL
Lorsque l’AIPD révèle que le risque résiduel reste élevé malgré les mesures d’atténuation, l’article 36 du RGPD impose une consultation préalable de l’autorité de contrôle avant la mise en production du traitement. Les organismes utilisant des LLM pour traiter des données de santé pseudonymisées doivent impérativement intégrer ce risque de réidentification dans leur évaluation.
Recommandations
Pour réduire le risque de réidentification par l’IA dans un flux de données de santé :
- Cartographier précisément les champs transmis au LLM : documenter chaque élément de donnée envoyé, même ceux semblant non identifiants. Vérifier la présence de métadonnées implicites (horodatage, identifiant client, format).
- Appliquer le principe de minimisation radicale : ne transmettre que les fragments strictement nécessaires. Éviter la transmission de résultats complets quand une phrase isolée suffit.
- Supprimer les valeurs numériques exactes quand c’est possible : remplacer « troponine 2847 ng/L » par « troponine très élevée (> 10x la normale) ». La précision décimale est un vecteur de réidentification.
- Décorréler les envois successifs d’un même patient : utiliser des pseudonymes différents pour chaque envoi, introduire un délai aléatoire, mélanger les envois de plusieurs patients.
- Obtenir des garanties contractuelles opposables : clauses de non-rétention, non-entraînement, non-réutilisation des données par les fournisseurs LLM, avec preuves auditables.
- Réaliser des tests de mémorisation : vérifier périodiquement si le LLM est capable de réciter ou de reconstituer des données patients précédemment soumises (membership inference attack).
- Intégrer ce risque dans toute AIPD : le risque de réidentification par l’IA doit faire l’objet d’une évaluation spécifique dans toute analyse d’impact impliquant des LLM et des données de santé.
- Privilégier les modèles locaux quand c’est possible : un modèle déployé en interne (on-premise) élimine le risque de rétention par un fournisseur tiers, même si le risque d’inférence interne persiste.
Conclusion
La pseudonymisation, telle qu’elle est habituellement conçue, repose sur l’hypothèse que le destinataire des données ne dispose pas d’informations supplémentaires permettant la réidentification. Or, un LLM est précisément un système qui dispose de ces informations supplémentaires, intégrées dans ses paramètres d’entraînement.
Le risque n’est pas théorique. Il est inhérent à l’architecture même des grands modèles de langage. Et surtout, il est silencieux : l’IA ne signale pas qu’elle a identifié un patient, elle ne le mentionne pas dans sa réponse, mais l’inférence existe dans ses couches de traitement.
Ce constat impose aux responsables de traitement une vigilance renforcée : la pseudonymisation seule ne suffit pas à protéger les données de santé lorsqu’elles sont soumises à des LLM. Des mesures techniques et organisationnelles supplémentaires sont indispensables, et leur absence constitue un facteur aggravant dans l’évaluation de la conformité RGPD.
Tout organisme qui transmet des données de santé pseudonymisées à un LLM doit considérer que ces données sont potentiellement réidentifiables et adapter son évaluation des risques en conséquence.
- Affaire Cegedim / MLM : anatomie de la plus grave violation de données médicales jamais documentée en France
- Cegedim : anatomie de la plus grave fuite de données médicales jamais documentée en France
- Gestion des Visites Médicales en Santé au Travail pour les Jeux Olympiques de Paris 2024 : Un Défi de Confidentialité et de Sécurité des Données
































