La L-diversité est une méthode d’anonymisation qui vise à empêcher les attaques par inférence, qui visent à déduire des valeurs pour d’autres attributs à partir de certaines valeurs d’attributs. La méthode L-diversité garantit que chaque groupe d’individus ayant les mêmes caractéristiques possède au moins L valeurs pour un attribut donné. Cela signifie que si un attaquant dispose de certaines informations sur un groupe d’individus, il ne pourra pas déduire d’autres informations en utilisant ces caractéristiques communes. Par exemple, si le jeu de données contient des informations sur l’âge, le sexe et la maladie, la L-diversité peut être utilisée pour s’assurer que chaque groupe d’individus ayant les mêmes caractéristiques possède au moins L maladies possibles.
La L-diversité est donc une méthode d’anonymisation qui vise à protéger la vie privée des individus en garantissant qu’un groupe d’individus partageant les mêmes caractéristiques a une diversité minimale dans les données sensibles. Pour mieux comprendre cette méthode, examinons un exemple concret.
Supposons que nous ayons un jeu de données contenant des informations sur les maladies de certaines personnes, ainsi que leur âge, leur sexe et leur code postal :
Age | Sexe | Code postal | Maladie |
---|---|---|---|
24 | F | 75001 | Diabète |
36 | M | 75003 | Asthme |
43 | F | 75005 | Hypertension |
29 | M | 75001 | Diabète |
38 | F | 75003 | Asthme |
41 | M | 75005 | Hypertension |
31 | F | 75001 | Diabète |
49 | M | 75003 | Asthme |
57 | F | 75005 | Hypertension |
27 | M | 75001 | Diabète |
Dans ce cas, si une personne avait connaissance du code postal et de la maladie d’une personne, elle pourrait facilement identifier cette personne. Par exemple, si elle sait qu’une personne a le diabète et vit dans le 1er arrondissement de Paris, elle sait immédiatement que cela doit être l’une des trois personnes de la liste qui partagent ces caractéristiques.
Pour éviter cela, nous pouvons utiliser la L-diversité. Supposons que nous décidions de fixer L à 2, ce qui signifie que chaque groupe d’individus partageant les mêmes caractéristiques doit avoir au moins deux maladies différentes représentées. Pour atteindre cela, nous pouvons ajouter des valeurs supplémentaires pour les maladies dans chaque groupe. Dans notre exemple, nous pouvons ajouter une maladie supplémentaire pour chaque groupe :
Age | Sexe | Code postal | Maladie 1 | Maladie 2 |
---|---|---|---|---|
24 | F | 75001 | Diabète | Asthme |
36 | M | 75003 | Asthme | Hypertension |
43 | F | 75005 | Hypertension | Diabète |
29 | M | 75001 | Diabète | Hypertension |
38 | F | 75003 | Asthme | Diabète |
41 | M | 75005 | Hypertension | Asthme |
31 | F | 75001 | Diabète | Hypertension |
49 | M | 75003 | Asthme | Hypertension |
57 | F | 75005 | Hypertension | Asthme |
27 | M | 75001 | Diabète | Ast |