Avec l’avènement du numérique et l’explosion de la collecte de données personnelles, la protection de la vie privée est devenue un enjeu majeur. Les données personnelles sont collectées par quasiment tous les acteurs fournissant des services, qu’ils soient une entreprise, une association, une collectivité ou une administration. Ces données sont utilisées pour profiler les clients, vendre des biens ajustés à leurs besoins, ou encore pour valoriser économiquement ces données par de la publicité ciblée, qu’en est il de l’anonymisation des données personnelles ?
Cependant, la collecte de données personnelles peut également avoir des conséquences néfastes pour la vie privée des individus. Les données peuvent être utilisées pour réidentifier des individus, même lorsque ces données ont été anonymisées. En 1997, la chercheuse du MIT Latanya Sweeney avait utilisé une base de données de santé anonymisée pour réidentifier le dossier médical du gouverneur de l’État du Massachusetts, William Weld, et déduire qu’il souffrait d’un cancer. Plus récemment, en 2010, des chercheurs ont réidentifié massivement des adolescents transgenres à partir de données de recensement anonymisées.
Pour protéger la vie privée, les entreprises peuvent anonymiser les données qu’elles collectent. Cependant, cette solution est loin d’être parfaite. Les méthodes d’anonymisation peuvent être contournées par des individus malveillants disposant de suffisamment de données auxiliaires et de capacités pour effectuer des attaques. De plus, en anonymisant des données, leur qualité peut être dégradée, ce qui peut les rendre inutiles pour une entreprise. Si les données sont trop dégradées, elles ne sont plus exploitables et donc inutiles pour une entreprise.
Les entreprises peuvent également choisir de pseudonymiser les données. La pseudonymisation consiste à supprimer les éléments directement identifiants, tels qu’un nom, un prénom ou une adresse complète, pour les remplacer par un identifiant aléatoire semblable à un pseudonyme. Cependant, cette méthode ne garantit pas une protection totale contre les attaques, comme cela a été démontré par Latanya Sweeney en 1997 sur le jeu de données ayant permis de réidentifier le gouverneur du Massachusetts.
Il existe plusieurs techniques pour anonymiser les données, mais chacune a ses limites. Le K-anonymat et la L-diversité sont des méthodes couramment utilisées pour l’anonymisation des données. Le K-anonymat consiste à empêcher l’individualisation des individus en s’assurant qu’au moins K individus ont les mêmes caractéristiques et que toute tentative d’individualisation ne permet pas d’isoler un individu parmi K. La L-diversité s’assure quant à elle que chaque groupe d’individus constitué suite au K-anonymat ne pointe pas vers une maladie unique, mais au moins L maladies possibles. La T-proximité est une méthode qui vérifie des éléments statistiques sur la distribution des valeurs.
Cependant, ces méthodes ont leurs limites et ne garantissent pas une protection totale contre les attaques. Les entreprises ont une obligation légale de prendre des mesures pour assurer la confidentialité des données, mais pas nécessairement de garantir une protection complète contre les attaques.
En fin de compte, il n’existe pas de méthode générique pour anonymiser les données. Les données de géolocalisation, les dynamiques des relations dans les réseaux sociaux et les données de santé sont des exemples de données qui nécessitent des techniques d’anonymisation différentes. Les entreprises doivent donc prendre en compte les caractéristiques spécifiques des données qu’elles collectent et choisir la méthode d’anonymisation la plus adaptée.