Sommaire

L’anonymisation des données de santé est déjà quasi impossible. Quand elle est réellement menée à son terme, les données deviennent inutilisables pour la recherche. Pourtant, un nombre croissant de startups et d’éditeurs promettent aux établissements de santé, aux laboratoires et aux industriels une exploitation « libre de contraintes RGPD » de données cliniques « anonymisées ». Leurs dirigeants connaissent la réalité technique. Ils savent que l’anonymisation affichée est rarement conforme aux exigences de la CNIL et de l’EDPB. Ils savent aussi que les autorités de contrôle affinent leurs outils. La question n’est plus de savoir s’il y aura des sanctions, mais quand et combien.

A lire aussi sur DPO PARTAGE

IA chez les fournisseurs : comment détecter les usages non déclarés ?

RGPD club sportif : licenciés, santé et mineurs

Pseudonymisation : technique de sécurité et minimisation

L’anonymisation des données de santé : une impossibilité technique démontrée

Depuis un quart de siècle, la littérature scientifique accumule les preuves. En 1997, Latanya Sweeney réidentifiait le gouverneur du Massachusetts dans un fichier hospitalier « anonymisé » en croisant trois variables : code postal, date de naissance, sexe. Son étude de 2000 a posé un chiffre désormais célèbre : 87 % de la population américaine est identifiable avec ces trois seules informations.

En 2019, Rocher, Hendrickx et de Montjoye (Nature Communications) ont enfoncé le clou : avec 15 attributs démographiques, 99,98 % des Américains sont réidentifiables, même dans des jeux de données incomplets et échantillonnés. Le modèle « retirer les noms et numéros puis diffuser » ne fonctionne pas.

Les données de santé sont particulièrement réfractaires à l’anonymisation. Un dossier médical contient des dizaines de variables (diagnostics CIM-10, prescriptions, dates d’actes, résultats biologiques) qui créent des trajectoires quasi uniques. Un patient atteint d’une pathologie rare, suivi dans un centre de référence, à des dates précises, est potentiellement le seul individu correspondant à ce profil dans l’ensemble du jeu de données.

À retenir

Le considérant 26 du RGPD exige que l’identification soit « irréalisable en pratique ». La CJUE (7 mars 2024) a précisé que le risque doit être « insignifiant ». Aucune technique d’anonymisation connue ne permet d’atteindre ce seuil pour des données cliniques individuelles tout en conservant leur utilité scientifique.

Le dilemme fatal : anonymiser, c’est détruire

Le mathématicien Cynthia Dwork a formalisé le problème dès 2006 avec la confidentialité différentielle : il existe une tension irréductible entre protection et utilité. Plus on protège, moins les données sont exploitables. Ce n’est pas une question de technologie insuffisante : c’est une contrainte mathématique.

L’étude de référence publiée dans npj Digital Medicine (2025) le confirme pour la santé : sous un budget de confidentialité strict (ε ≈ 1), la dégradation des résultats est inacceptable pour la recherche clinique, en particulier pour les jeux de données de petite taille ou hétérogènes. Sous un budget relâché (ε ≈ 10), les résultats restent exploitables, mais les données ne sont plus anonymes au sens du RGPD.

Autrement dit : quand l’anonymisation fonctionne réellement, les données n’ont plus de valeur. Et quand les données conservent leur valeur, elles ne sont pas anonymes.

Etude

Mohammadi et al. Differential privacy for medical deep learning: methods, tradeoffs, and deployment implications. npj Digital Medicine (2025). https://www.nature.com/articles/s41746-025-02280-z

Le SNDS (Système national des données de santé) illustre parfaitement ce constat. C’est l’une des plus grandes bases de données de santé au monde. Le modèle retenu par le législateur est la pseudonymisation, et non l’anonymisation. L’accès reste soumis à autorisation CNIL, dans un environnement sécurisé contrôlé par le Health Data Hub. Les seules données « anonymes » du SNDS sont des agrégats statistiques, inaptes aux études de cohorte ou aux analyses longitudinales.

Les vendeurs de miracles : un écosystème en pleine expansion

Malgré ces évidences, un écosystème de startups et d’éditeurs promet l’impossible : exploiter librement des données cliniques « anonymisées », sans contrainte RGPD, sans autorisation CNIL, sans environnement sécurisé. Leur proposition de valeur repose sur un syllogisme séduisant mais faux :

« Nos données sont anonymisées » (en réalité : pseudonymisées, ou insuffisamment dégradées)
« Donc elles ne sont pas des données personnelles » (en réalité : elles le restent, faute de satisfaire les trois critères du WP216)
« Donc le RGPD ne s’applique pas » (en réalité : il s’applique pleinement, et le traitement est illicite)

En droit de la protection des données, l’ignorance n’est pas une excuse. Elle est une faute en soi.

Etre DPO, c’est aussi porter cette lucidité. La distinction entre données anonymisées et données pseudonymisées n’est pas une nuance sémantique que l’on trouve dans un dictionnaire. C’est une ligne de partage opérationnelle qui détermine si le RGPD s’applique ou non, si une autorisation CNIL est requise ou non, si un traitement est licite ou illicite. Un DPO qui ne maîtrise pas cette frontière, qui l’assimile à une simple question de vocabulaire, ne remplit pas sa mission de conseil au titre de l’article 39 du RGPD. Il expose son organisme sans le savoir, et il s’expose lui-même.

Sur les risques pour le responsable de traitement :

Le responsable de traitement qui désigne un DPO dépourvu de cette compétence prend un risque considérable. L’article 37(5) du RGPD exige que le DPO soit désigné sur la base de ses qualités professionnelles et de sa connaissance spécialisée du droit et des pratiques en matière de protection des données. Un DPO qui confond anonymisation et pseudonymisation, c’est un DPO qui validera des traitements illicites, qui ne déclenchera pas les demandes d’autorisation CNIL nécessaires (articles 66 à 76 de la loi Informatique et Libertés), qui ne prescrira pas les AIPD requises (article 35 RGPD), et qui laissera l’organisme commercialiser ou réutiliser des données de santé sans base de droit valable. Le précédent Cegedim montre ce que cela coute : 1,8 million d’euros de sanctions. Le responsable de traitement ne pourra pas se retrancher derrière le DPO pour s’exonérer : c’est lui qui porte la responsabilité du traitement.

Sur les risques pour le DPO lui-même :

Quant au DPO, sa responsabilité personnelle peut être engagée s’il est établi qu’il a manqué à son obligation de compétence. La CNIL, dans son rapport sur la fonction de DPO (enquête conjointe avec l’AFCDP et le Ministère du Travail, 2024, 3 625 répondants), rappelle que le DPO doit maintenir ses connaissances. Un DPO qui ne distingue pas la pseudonymisation de l’anonymisation en 2026, après la décision Cegedim, après la confirmation du Conseil d’Etat, après les lignes directrices EDPB 01/2025 sur la pseudonymisation, ne peut plus invoquer l’ignorance. Si l’organisme est sanctionné pour avoir qualifié d’anonymisées des données qui ne l’étaient pas, et que le DPO avait validé cette qualification, la question de sa faute professionnelle se posera. Pour un DPO externe, c’est sa responsabilité contractuelle. Pour un DPO interne, c’est son obligation de compétence au regard de l’article 37(5). Dans les deux cas, c’est sa crédibilité.

Les catégories d’acteurs concernés

Les éditeurs de logiciels médicaux. Certains collectent les données cliniques saisies par les médecins dans leurs logiciels de gestion de cabinet, les « anonymisent » et les revendent à des laboratoires pharmaceutiques ou à des cabinets d’études. Le précédent Cegedim a démontré que cette pratique est sanctionnée. Pourtant, d’autres acteurs poursuivent des modèles économiques similaires.

Les plateformes de « données de santé en accès libre ». Elles proposent à des chercheurs ou à des industriels un accès direct, hors circuit CNIL, à des jeux de données présentés comme anonymes. L’absence de circuit d’autorisation est présentée comme un avantage concurrentiel, quand elle devrait constituer un signal d’alarme.

Les fournisseurs de données synthétiques. Les données synthétiques (générées par modèles GAN ou de diffusion) sont présentées comme la solution miracle. Certaines startups, développent des technologies d’avatarisation créant des profils fictifs préservant les propriétés statistiques des données sources. L’approche est intellectuellement plus honnête que la pseudo-anonymisation déguisée, mais elle n’est pas exempte de risques : mémorisation de points de données réels par le modèle générateur, imprécision pour les événements rares, reproduction des biais. Une étude de Scientific Reports (2024) a montré des incohérences significatives lorsqu’on tente de reproduire des analyses publiées à partir de données synthétiques.

Les plateformes d’évaluation du risque. Des acteurs comme Clever Identity proposent des outils de diagnostic du risque de réidentification fondés sur les normes ISO 27559 et ISO 20889. Leur approche est la plus lucide de l’écosystème : elle reconnaît que l’anonymisation est un processus de réduction du risque, pas un interrupteur binaire. Mais même leur revendication de « 98 % d’utilité préservée » doit être confrontée à la réalité clinique : pour une étude de survie sur une cohorte de maladies rares, la perte de 2 % des informations peut invalider les résultats.

Le cas de terrain que nous avons vécu

Dans le cadre de nos missions de DPO, nous avons accompagné un organisme qui collectait des données cliniques issues de professionnels de santé utilisant sa plateforme, dans l’objectif déclaré de les « anonymiser » pour les mettre à disposition de tiers. L’analyse a révélé que le procédé ne répondait pas aux critères de l’anonymisation au sens du RGPD : les trajectoires de soins, les métadonnées temporelles et géographiques conservées permettaient, par croisement, une réidentification non négligeable. L’organisme faisait, sans le reconnaître, de la pseudonymisation, et son traitement était illicite faute d’autorisation CNIL au titre des articles 66 et suivants de la loi Informatique et Libertés.

Ce cas n’est pas isolé. Il est représentatif d’une confusion systémique dans l’écosystème de la donnée de santé.