Cas pratique : La T-proximité - Methode d'anonymisation

La T-proximité est une méthode d’anonymisation qui vise à protéger la distribution des valeurs dans le jeu de données. Cette méthode vérifie les éléments statistiques sur la distribution des valeurs et plus T est proche de 1, plus la distribution est similaire à celle de la base réelle. Si T est fixé à 1, cela signifie que la distribution des valeurs dans le jeu de données est identique à celle de la base réelle.

La T-proximité est donc une autre méthode d’anonymisation qui vise à protéger la vie privée des individus. Elle consiste à perturber les données en y ajoutant une petite quantité de bruit pour éviter que les informations ne puissent être reliées directement à une personne. Pour mieux comprendre cette méthode, examinons un exemple concret.

Supposons que nous ayons un jeu de données contenant des informations sur les revenus des employés dans une entreprise, ainsi que leur âge et leur sexe :

Age	Sexe	Revenu
35	F	45000€
45	M	55000€
28	F	35000€
50	M	75000€
37	F	42000€
31	M	40000€
44	F	60000€
27	M	37000€
52	F	80000€
29	M	36000€

Dans ce cas, si une personne avait connaissance de l’âge, du sexe et du revenu d’une personne, elle pourrait facilement identifier cette personne. Par exemple, si elle sait qu’une personne a 35 ans, est une femme et a un revenu de 45 000 €, elle sait immédiatement que cela doit être la première personne de la liste.

Pour éviter cela, nous pouvons utiliser la T-proximité. Supposons que nous décidions de fixer T à 0,1. Nous pouvons alors ajouter un bruit aléatoire à chaque valeur de revenu. Dans notre exemple, nous pouvons ajouter une petite quantité de bruit à chaque valeur de revenu, en utilisant une distribution normale centrée sur 0 et avec une variance de 0,1 fois le revenu initial :

Age	Sexe	Revenu bruité
35	F	45127€
45	M	54884€
28	F	35231€
50	M	74816€
37	F	41797€
31	M	39641€
44	F	59995€
27	M	37201€
52	F	80080€
29	M	35870€

Dans cet exemple, les valeurs de revenu ont été modifiées, mais les différences entre les valeurs ont été maintenues. Ainsi, les données ont été perturbées pour éviter l’identification directe des individus, mais les propriétés statistiques de la distribution originale ont été préservées. Cependant, il est important de noter que la perturbation des données peut rendre certaines analyses plus difficiles à réaliser avec précision.

Cas pratique : La T-proximité – Methode d’anonymisation

Cas pratique : La T-proximité – Methode d’anonymisation

Newsletter

Audit gratuit Conformité RGPD

Encore plus d'actualitésInformations RGPD

A propos de DPO PARTAGE

Nos sites

Nos ouvrages

Encore plus d'actualités
Informations RGPD