Anonymisation, Pseudonimisation ce n'est pas juste un nom

A lire aussi sur DPO PARTAGE

Dans les formations RGPD, la même confusion revient sans cesse : beaucoup de professionnels pensent que supprimer le nom et le prénom d’un patient suffit à protéger ses données. Cette croyance est fausse, et elle peut coûter cher lors d’un contrôle de la CNIL.

Voici 15 exemples tirés du quotidien médical. Pour chacun, vous verrez la donnée brute, sa version pseudonymisée, puis sa version anonymisée. Et surtout, vous comprendrez pourquoi chaque transformation change radicalement le niveau de risque.

Rappel : pseudonymisation vs anonymisation

La pseudonymisation remplace les identifiants directs (nom, prénom, numéro de sécurité sociale) par un code ou un identifiant artificiel. La réidentification reste possible si l’on dispose de la table de correspondance. Les données restent des données personnelles au sens du RGPD.

L’anonymisation supprime ou transforme les données de façon irréversible, rendant toute réidentification impossible, même par le responsable de traitement. Les données ne sont plus soumises au RGPD.

La frontière est stricte. Et comme vous allez le voir, beaucoup de données que l’on croit « neutres » permettent en réalité d’identifier une personne.

Les 15 exemples

Le diagnostic associé à la commune de résidence

Donnée brute « Mme Isabelle RENARD, 67 ans, résidant à Montcuq (46), atteinte d’une sclérose latérale amyotrophique. »

Pseudonymisée « Patiente P-00712, 67 ans, résidant à Montcuq (46), atteinte d’une sclérose latérale amyotrophique. »

Anonymisée « Patiente, 65-70 ans, résidant dans une commune rurale de moins de 2 000 habitants dans le Lot, atteinte d’une maladie neurodégénérative. »

Pourquoi ? Une maladie rare dans une petite commune peut suffire à identifier une personne sans qu’aucun nom n’apparaisse. Montcuq compte environ 1 300 habitants. Si une seule personne de 67 ans y est atteinte de SLA, la pseudonymisation ne protège rien. L’anonymisation exige de généraliser à la fois l’âge, la localisation et le diagnostic.

La date d’hospitalisation et le service

Donnée brute « M. Théodore BLANCHARD a été admis le 14 mars 2024 au service de psychiatrie de l’hôpital de Millau. »

Pseudonymisée « Patient P-00234 a été admis le 14 mars 2024 au service de psychiatrie de l’hôpital de Millau. »

Anonymisée « Patient admis au cours du premier trimestre 2024 dans un service de psychiatrie d’un établissement de taille moyenne en Aveyron. »

Pourquoi ? Dans un petit établissement, la combinaison d’une date précise et d’un service spécialisé peut permettre de retrouver un patient. L’entourage, les collègues, les voisins peuvent croiser cette information avec ce qu’ils savent déjà. La date doit être généralisée et le lieu ne peut pas rester précis.

Le numéro de sécurité sociale

Donnée brute « NIR : 2 75 04 75 056 127 58 »

Pseudonymisée « Code patient : XK-7741-B »

Anonymisée « [Donnée supprimée] »

Pourquoi ? Le NIR est un identifiant direct et unique. À lui seul, il permet d’accéder à l’ensemble du parcours de soins d’une personne via les systèmes d’information de santé. La pseudonymisation par code interne est ici la bonne pratique pour les traitements internes. L’anonymisation exige la suppression totale, car aucune généralisation n’est possible sur un identifiant structurel.

Le traitement médicamenteux et la posologie

Donnée brute « Patient sous Méthadone 80 mg/j depuis le 3 janvier 2023, suivi au CSAPA de Bordeaux. »

Pseudonymisée « Patient P-01109, traitement opioïde de substitution, posologie élevée, prise en charge en addictologie depuis début 2023. »

Anonymisée « Patient adulte sous traitement de substitution aux opioïdes, posologie supérieure à 60 mg/j, suivi en structure spécialisée dans une grande agglomération du Sud-Ouest. »

Pourquoi ? Le nom de la molécule, la posologie précise et la structure de prise en charge forment un faisceau d’indices permettant une réidentification dans un contexte connu. La pseudonymisation efface le nom mais conserve la spécificité. L’anonymisation doit généraliser chaque attribut individuellement.

L’image médicale

Donnée brute Radiographie du visage avec métadonnées DICOM : nom, date de naissance, numéro d’examen, établissement.

Pseudonymisée Radiographie avec métadonnées remplacées par un identifiant de recherche. Le cliché lui-même est conservé.

Anonymisée Cliché recadré pour ne montrer que la zone anatomique d’intérêt, sans aucune métadonnée. Les caractéristiques faciales non pertinentes sont supprimées ou floutées.

Pourquoi ? Une image médicale du visage est biométrique. Elle identifie directement la personne, indépendamment de tout texte associé. Supprimer le nom dans les métadonnées ne suffit pas si l’image elle-même est identifiante. C’est une erreur fréquente dans les projets de recherche médicale.

Le compte rendu opératoire avec détails anatomiques rares

Donnée brute « M. Fabien ORTEGA, opéré le 2 avril 2024 pour agénésie du corps calleux associée à une malformation de Chiari de type II, chirurgien : Dr Leconte, CHU de Toulouse. »

Pseudonymisée « Patient P-00891, opéré en avril 2024 pour agénésie du corps calleux associée à une malformation de Chiari de type II, CHU de Toulouse. »

Anonymisée « Patient adulte, opéré au cours du premier semestre 2024 pour une malformation congénitale du système nerveux central dans un CHU de la région Occitanie. »

Pourquoi ? La combinaison de deux malformations rares dans un même établissement à une date précise peut correspondre à un seul patient dans toute la base de données. Le nom du chirurgien est également identifiant indirect car il réduit encore le champ des possibles. L’anonymisation doit effacer les spécificités cliniques rares.

Le résultat d’un test génétique

Donnée brute « Mme Corinne FAVIER, mutation BRCA1 c.5266dupC détectée, consultation du 18 novembre 2023. »

Pseudonymisée « Patiente P-00556, mutation BRCA1 c.5266dupC détectée, novembre 2023. »

Anonymisée « Patiente adulte, mutation pathogène BRCA1 confirmée, résultat rendu au cours du quatrième trimestre 2023. »

Pourquoi ? Une mutation génétique est une donnée personnelle d’une sensibilité extrême. Elle concerne non seulement la personne, mais aussi ses apparentés biologiques. La variante exacte c.5266dupC est tellement spécifique qu’elle peut à elle seule, dans un contexte familial connu, permettre d’identifier plusieurs membres d’une même famille. L’anonymisation doit généraliser jusqu’au type de mutation.

Le parcours de soins chronologique

Donnée brute « M. Alain DUTERTRE : consultation généraliste 12/01, urgences 14/01, scanner 15/01, hospitalisation cardiologie 16/01, sortie 22/01. »

Pseudonymisée « Patient P-02301 : consultation généraliste J1, urgences J3, scanner J4, hospitalisation cardiologie J5, sortie J11. »

Anonymisée « Patient, hospitalisation en cardiologie d’une durée de 5 à 8 jours, précédée d’un passage aux urgences et d’une imagerie dans la même semaine. »

Pourquoi ? Une séquence précise d’événements de soins est un « empreinte de parcours ». Dans un établissement de taille moyenne, ce type de trajectoire peut ne correspondre qu’à un seul patient sur une période donnée. La pseudonymisation ne rompt pas ce lien si les dates relatives sont conservées.

L’adresse IP dans un espace patient numérique

Donnée brute « Connexion au dossier patient partagé depuis l’IP 82.64.117.205 le 7 février 2024 à 09h14. »

Pseudonymisée « Connexion enregistrée depuis l’identifiant réseau IR-445-B le 7 février 2024. »

Anonymisée « Connexion enregistrée au cours de la matinée du 7 février 2024 depuis un réseau résidentiel en Île-de-France. »

Pourquoi ? Une adresse IP est une donnée personnelle au sens du RGPD, confirmé par la jurisprudence de la CJUE. Couplée à un horodatage précis, elle permet de localiser physiquement une personne ou d’identifier son fournisseur d’accès, puis de remonter à l’abonné. La pseudonymisation doit remplacer l’IP par un identifiant sans lien structurel. L’anonymisation doit supprimer toute précision permettant la réidentification technique.

Les données de mobilité issues d’un dispositif médical connecté

Donnée brute « Patient portant un holter tensionnel 24h : tension 165/95 à 07h22 (domicile, rue des Acacias, Nîmes), 140/85 à 12h47 (restaurant Le Mas d’Or, Nîmes), 178/100 à 18h33 (salle de sport Fitness Park, Nîmes). »

Pseudonymisée « Patient P-00774 : données tensionnelles et localisation GPS conservées, identifiant remplacé. »

Anonymisée « Patient adulte hypertendu : valeurs matinales, de milieu de journée et de fin d’après-midi enregistrées sur 24h, sans coordonnées géographiques. »

Pourquoi ? Les données de localisation sont identifiantes par elles-mêmes. Des études ont montré que quatre points de géolocalisation suffisent à identifier 95 % des individus dans une population urbaine. Un holter connecté qui conserve les coordonnées GPS expose le patient bien au-delà de sa tension artérielle. La pseudonymisation sans suppression des coordonnées ne change rien au risque.

La photographie clinique

Donnée brute Photo d’une lésion cutanée sur le visage d’un patient, accompagnée de son nom et de la date de consultation.

Pseudonymisée Photo identique, avec le nom remplacé par un code patient. La lésion et le visage restent visibles.

Anonymisée Photo recadrée sur la seule lésion, sans aucun élément du visage ni des métadonnées, ou image remplacée par une description textuelle structurée.

Pourquoi ? Le visage humain est une donnée biométrique. Toute photographie montrant le visage d’une personne identifiable reste une donnée personnelle, quelle que soit l’annotation textuelle qui l’accompagne. Cette réalité est souvent ignorée dans les services de dermatologie et de chirurgie plastique qui constituent des bases photographiques à des fins pédagogiques.

Le motif d’arrêt de travail

Donnée brute « Arrêt de travail du 3 au 17 mars 2024, motif : épisode dépressif sévère avec idées suicidaires, employeur : Mairie de Saint-Flour. »

Pseudonymisée « Employé E-0034, arrêt de travail de 14 jours en mars 2024, motif : trouble psychiatrique aigu, employeur : collectivité territoriale de moins de 10 000 habitants en Auvergne. »

Anonymisée « Agent de la fonction publique territoriale, arrêt de travail de 10 à 20 jours au cours du premier trimestre 2024, motif relevant de la santé mentale. »

Pourquoi ? Dans une petite collectivité, la combinaison de l’employeur, de la durée et du motif psychiatrique peut identifier une personne avec certitude. Les données de santé transmises à un employeur sont extrêmement sensibles. La médecine du travail est un contexte dans lequel cette erreur est fréquente, avec des conséquences directes sur la vie professionnelle du salarié.

Le groupe sanguin et le phénotype rare

Donnée brute « Patient Rhésus négatif, groupe A, phénotype Kell positif, anticorps anti-E. Fichier établi au centre de transfusion de Lyon. »

Pseudonymisée « Patient P-09812, caractéristiques transfusionnelles complètes conservées, établissement anonymisé. »

Anonymisée « Patient adulte avec profil transfusionnel complexe nécessitant des produits compatibilisés, région Auvergne-Rhône-Alpes. »

Pourquoi ? Un phénotype sanguin rare, surtout avec présence d’allo-anticorps, constitue un identifiant indirect puissant. Certains phénotypes sont présents dans moins de 0,1 % de la population. Associé à un centre transfusionnel régional, ce profil peut correspondre à un nombre très limité de patients. La pseudonymisation qui conserve toutes les caractéristiques biologiques n’apporte qu’une protection illusoire.

Les données de prescription en médecine du travail

Donnée brute « Salarié Ahmed BENALI, poste : conducteur de travaux chez BTP Constructions SA, déclaré inapte au port de charges lourdes, préconisation : aménagement du poste ou reclassement. »

Pseudonymisée « Salarié S-00218, poste : conducteur de travaux dans une PME du BTP en Île-de-France, inapte partiel, préconisation d’aménagement de poste. »

Anonymisée « Salarié masculin, secteur BTP, fonction d’encadrement de chantier, inaptitude partielle liée à des restrictions physiques, recommandation d’aménagement. »

Pourquoi ? Dans une PME, le nombre de conducteurs de travaux est souvent limité. La pseudonymisation qui conserve le secteur, le poste et la nature de l’inaptitude permet à quiconque ayant accès au fichier de deviner l’identité du salarié en quelques secondes. C’est une configuration très courante dans les services de santé au travail, et l’un des risques les plus sous-estimés du secteur.

L’historique de consultation en ligne

Donnée brute « Utilisateur ID 44712 (Mme Sandra PETIT, née le 04/09/1981) a consulté les fiches : ‘symptômes VIH’, ‘test de dépistage anonyme’, ‘prise en charge IST à Paris’ entre le 11 et le 14 février 2024 depuis l’application Doctolib. »

Pseudonymisée « Utilisateur U-44712, recherches relatives aux infections sexuellement transmissibles, 3 consultations entre le 11 et le 14 février 2024. »

Anonymisée « Utilisateur adulte, intérêt pour des contenus de prévention en santé sexuelle, consultations réparties sur une période de 3 à 5 jours au cours du mois de février 2024. »

Pourquoi ? L’historique de navigation sur une plateforme de santé est une donnée personnelle de santé, même si aucun acte médical n’a eu lieu. Les requêtes elles-mêmes révèlent une préoccupation de santé. La pseudonymisation qui conserve la liste précise des pages visitées et la fenêtre temporelle permet une réidentification indirecte, notamment si les données sont croisées avec d’autres sources (logs de connexion, adresse IP, historique d’agenda).

Ce que ces 15 exemples nous enseignent

Ces cas ne sont pas des situations d’exception. Ils correspondent à des traitements réels, effectués chaque jour dans des cabinets médicaux, des hôpitaux, des services de santé au travail, des plateformes de télémédecine.

Trois principes ressortent de cette lecture :

La combinaison est le vrai risque. Une donnée peut sembler anodine seule : une tranche d’âge, un code postal, une durée d’hospitalisation. C’est leur combinaison qui devient identifiante. C’est ce que la CNIL appelle le risque de « singling out » : la possibilité d’isoler un individu dans un ensemble de données.

La rareté amplifie le risque. Plus un attribut est rare (maladie orpheline, phénotype sanguin, malformation congénitale), plus il suffit à identifier. Dans ces cas, la pseudonymisation sans généralisation du diagnostic ne protège pratiquement rien.

L’anonymisation vraie est exigeante. Elle ne se réduit pas à supprimer le nom. Elle exige de tester si les données résiduelles, prises ensemble, permettent encore de désigner un individu dans la population concernée. Ce test est celui du « triangle de réidentification » : singularisation, corrélation et inférence. Si l’une de ces trois opérations reste possible, la donnée n’est pas anonyme.

Article pseudonimisation – TROUVER UN DPO