Cas pratique : La T-proximité – Methode d’anonymisation

Cas pratique : La T-proximité – Methode d’anonymisation

Le

La T-proximité est une méthode d’anonymisation qui vise à protéger la distribution des valeurs dans le jeu de données. Cette méthode vérifie les éléments statistiques sur la distribution des valeurs et plus T est proche de 1, plus la distribution est similaire à celle de la base réelle. Si T est fixé à 1, cela signifie que la distribution des valeurs dans le jeu de données est identique à celle de la base réelle.

La T-proximité est donc une autre méthode d’anonymisation qui vise à protéger la vie privée des individus. Elle consiste à perturber les données en y ajoutant une petite quantité de bruit pour éviter que les informations ne puissent être reliées directement à une personne. Pour mieux comprendre cette méthode, examinons un exemple concret.

Supposons que nous ayons un jeu de données contenant des informations sur les revenus des employés dans une entreprise, ainsi que leur âge et leur sexe :

AgeSexeRevenu
35F45000€
45M55000€
28F35000€
50M75000€
37F42000€
31M40000€
44F60000€
27M37000€
52F80000€
29M36000€

Dans ce cas, si une personne avait connaissance de l’âge, du sexe et du revenu d’une personne, elle pourrait facilement identifier cette personne. Par exemple, si elle sait qu’une personne a 35 ans, est une femme et a un revenu de 45 000 €, elle sait immédiatement que cela doit être la première personne de la liste.

Pour éviter cela, nous pouvons utiliser la T-proximité. Supposons que nous décidions de fixer T à 0,1. Nous pouvons alors ajouter un bruit aléatoire à chaque valeur de revenu. Dans notre exemple, nous pouvons ajouter une petite quantité de bruit à chaque valeur de revenu, en utilisant une distribution normale centrée sur 0 et avec une variance de 0,1 fois le revenu initial :

AgeSexeRevenu bruité
35F45127€
45M54884€
28F35231€
50M74816€
37F41797€
31M39641€
44F59995€
27M37201€
52F80080€
29M35870€

Dans cet exemple, les valeurs de revenu ont été modifiées, mais les différences entre les valeurs ont été maintenues. Ainsi, les données ont été perturbées pour éviter l’identification directe des individus, mais les propriétés statistiques de la distribution originale ont été préservées. Cependant, il est important de noter que la perturbation des données peut rendre certaines analyses plus difficiles à réaliser avec précision.

Logiciel RGPD
DPO Partagé
DPO Partagé
DPO EXTERNALISE - Disponible du Lundi au Samedi - Contactez nous au 01 83 64 42 98 ou par mail à contact@dpo-partage.fr DPO PARTAGE est le leader des DPO en données de santé et données sensibles. Urgence Violation Données +33 7 56 94 70 90

Intéressant ? Partagez-le !

Newsletter

Audit gratuit Conformité RGPD

spot_imgspot_img

A ne pas manquer !

Encore plus d'actualités
Informations RGPD

Prenez garde à ce piratage Gmail qui peut même contourner la double authentification

Aucun système informatique n'est inviolable, même ceux réputés parmi...

Les outils logiciels au cœur de la conformité RGPD : un atout indispensable pour les DPO

Logiciels conformité RGPD : La mise en conformité avec...

Sanction record pour hubside.store en matière de prospection commerciale

Le 4 avril 2024, la Commission Nationale de l'Informatique...