Cas Pratique : L-diversité – méthode d’anonymisation

Cas Pratique : L-diversité – méthode d’anonymisation

Le

La L-diversité est une méthode d’anonymisation qui vise à empêcher les attaques par inférence, qui visent à déduire des valeurs pour d’autres attributs à partir de certaines valeurs d’attributs. La méthode L-diversité garantit que chaque groupe d’individus ayant les mêmes caractéristiques possède au moins L valeurs pour un attribut donné. Cela signifie que si un attaquant dispose de certaines informations sur un groupe d’individus, il ne pourra pas déduire d’autres informations en utilisant ces caractéristiques communes. Par exemple, si le jeu de données contient des informations sur l’âge, le sexe et la maladie, la L-diversité peut être utilisée pour s’assurer que chaque groupe d’individus ayant les mêmes caractéristiques possède au moins L maladies possibles.

La L-diversité est donc une méthode d’anonymisation qui vise à protéger la vie privée des individus en garantissant qu’un groupe d’individus partageant les mêmes caractéristiques a une diversité minimale dans les données sensibles. Pour mieux comprendre cette méthode, examinons un exemple concret.

Supposons que nous ayons un jeu de données contenant des informations sur les maladies de certaines personnes, ainsi que leur âge, leur sexe et leur code postal :

AgeSexeCode postalMaladie
24F75001Diabète
36M75003Asthme
43F75005Hypertension
29M75001Diabète
38F75003Asthme
41M75005Hypertension
31F75001Diabète
49M75003Asthme
57F75005Hypertension
27M75001Diabète

Dans ce cas, si une personne avait connaissance du code postal et de la maladie d’une personne, elle pourrait facilement identifier cette personne. Par exemple, si elle sait qu’une personne a le diabète et vit dans le 1er arrondissement de Paris, elle sait immédiatement que cela doit être l’une des trois personnes de la liste qui partagent ces caractéristiques.

Pour éviter cela, nous pouvons utiliser la L-diversité. Supposons que nous décidions de fixer L à 2, ce qui signifie que chaque groupe d’individus partageant les mêmes caractéristiques doit avoir au moins deux maladies différentes représentées. Pour atteindre cela, nous pouvons ajouter des valeurs supplémentaires pour les maladies dans chaque groupe. Dans notre exemple, nous pouvons ajouter une maladie supplémentaire pour chaque groupe :

AgeSexeCode postalMaladie 1Maladie 2
24F75001DiabèteAsthme
36M75003AsthmeHypertension
43F75005HypertensionDiabète
29M75001DiabèteHypertension
38F75003AsthmeDiabète
41M75005HypertensionAsthme
31F75001DiabèteHypertension
49M75003AsthmeHypertension
57F75005HypertensionAsthme
27M75001DiabèteAst
DPO Partagé
DPO Partagé
DPO EXTERNALISE - Disponible du Lundi au Samedi - Contactez nous au 01 83 64 42 98 ou par mail à contact@dpo-partage.fr DPO PARTAGE est le leader des DPO en données de santé et données sensibles. Urgence Violation Données +33 7 56 94 70 90

Intéressant ? Partagez-le !

Newsletter

Audit gratuit Conformité RGPD

spot_imgspot_img

A ne pas manquer !

Encore plus d'actualités
Informations RGPD

Une faille majeure révèle les données de millions d’internautes : comprendre l’impact et les enjeux

Faille majeure révèle les données de millions d'internautes :...

La toile du renseignement français : entre premier et second cercle

Le renseignement français : Dans l'arène de la sécurité...

Écoutes, géolocalisations : une surveillance accrue en réponse aux menaces diversifiées en France

Écoutes, géolocalisations : Les récentes statistiques en France montrent...