DPO PARTAGE
Pas de résultat
Voir tous les résultats
  • Se connecter
  • Accueil
    • Tous
    • Droit à l'effacement
    • droit à l'image
    • Droit à l'oubli
    • Droit à la limitation
    • Droit d'accès
    • Droit de rectification
    gérer droit d'accès RGPD

    Droit d’accès du salarié à ses données RH

    exercer droit d'accès free

    Droit d’accès RGPD en contexte prud’homal : stratégie, méthodologie

    Demande de données par la gendarmerie

    Demande de données par la gendarmerie : faut-il répondre à un simple email ?

    consentement des salariés pour utiliser leur photo

    Faut-il demander le consentement des salariés pour utiliser leur photo en interne ? Un mythe à déconstruire.

    agenda Outlook d’un ancien salarié

    L’agenda Outlook d’un ancien salarié est-il communicable au titre du droit d’accès ?

    Caméras augmentées aux caisses automatiques

    Caméras augmentées aux caisses automatiques : entre prévention des pertes et protection de la vie privée

    Gestion de l’exercice des droits des personnes filmées

    Gestion de l’exercice des droits des personnes filmées : comment répondre efficacement aux demandes d’accès aux images ?

    Google répond à Criteo Index Exchange

    Privacy Sandbox : Google contre-attaque, mais Index Exchange enfonce le clou

    consentement et le contrat de cession de droit à l'image

    Comprendre la demande de consentement et le contrat de cession de droit à l’image

  • Cybersécurité
    • Tous
    • Cyberattaque
    • phishing ou hameçonnage
    • Sécurité

    108 extensions Chrome malveillantes : une campagne russe vole jetons Google et sessions Telegram

    ReCyF ANSSI NIS2 cybersécurité France

    ReCyF : l’ANSSI publie son référentiel de cybersécurité pour anticiper la transposition de NIS 2 en France

    accéder a n'importe quel compte

    Comment le vol de ces donnees permet d’acceder a n’importe quel compte sans jamais taper un seul mot de passe

    Actualités RGPD

    Fuite du code source de Claude Code : quand une erreur de packaging expose 500 000 lignes de code chez Anthropic

    Olvid est choisi pour les ministres

    Pourquoi Olvid affirme ne pas être concernée par l’alerte rouge du C4 sur les messageries

    SaaS et Shadow IT

    SaaS et Shadow IT : quand la prolifération des applications cloud met en péril vos données personnelles

    Airbus rachat Ultra Cyber cybersecurite souveraine europeenne defense

    Airbus rachète Ultra Cyber Ltd et accélère sur la cybersécurité souveraine en Europe

    Cryptographie post-quantique transition securite entreprises chiffrement donnees

    Cryptographie post-quantique : pourquoi les entreprises doivent anticiper la transition dès maintenant

    Piratage FFR fuite de donnees personnelles 530000 licencies rugby France

    Piratage de la FFR : plus de 530 000 licenciés touchés par une fuite de données massive

  • Votre conformité RGPD (Tarifs)
  • Secteurs d’activité
    • Tous
    • Assurance et assimilé
    • Avocat
    • Collectivité territoriale
    • Commissaire aux comptes
    • Communes / Mairies
    • CSE et RGPD
    • ecommerce
    • expert comptable
    • Officines Pharmaceutiques
    • Ressource humaine
    • Services Sociaux
    • Site Internet
    • SPST
    • télétravail
    IA générative et RGPD

    IA et conformité RGPD dans les SPST : fiche pratique pour DPO

    Modifications des traitements de données de santé

    Modifications des traitements de données de santé soumis à formalités : quelles sont les démarches ?

    Gend'Élus

    Gend’Élus, la plateforme des maires : et si la vraie menace pour les communes n’était pas celle qu’on croit ?

    RGPD dans les SPST

    Enquête nationale RGPD dans les SPST : DPO FRANCE lance une première historique

    DPO mutualisé collectivités territoriales

    Conformité RGPD des communes : DPO FRANCE et ETATYS lancent un service DPO mutualisé collectivités territoriales

    conformité au RGPD au sein des CSE

    Fuite de données chez Espace CSE : les informations personnelles de milliers de salariés exposées sur le Dark Web

  • Contact
Premium
S'INSCRIRE
  • Accueil
    • Tous
    • Droit à l'effacement
    • droit à l'image
    • Droit à l'oubli
    • Droit à la limitation
    • Droit d'accès
    • Droit de rectification
    gérer droit d'accès RGPD

    Droit d’accès du salarié à ses données RH

    exercer droit d'accès free

    Droit d’accès RGPD en contexte prud’homal : stratégie, méthodologie

    Demande de données par la gendarmerie

    Demande de données par la gendarmerie : faut-il répondre à un simple email ?

    consentement des salariés pour utiliser leur photo

    Faut-il demander le consentement des salariés pour utiliser leur photo en interne ? Un mythe à déconstruire.

    agenda Outlook d’un ancien salarié

    L’agenda Outlook d’un ancien salarié est-il communicable au titre du droit d’accès ?

    Caméras augmentées aux caisses automatiques

    Caméras augmentées aux caisses automatiques : entre prévention des pertes et protection de la vie privée

    Gestion de l’exercice des droits des personnes filmées

    Gestion de l’exercice des droits des personnes filmées : comment répondre efficacement aux demandes d’accès aux images ?

    Google répond à Criteo Index Exchange

    Privacy Sandbox : Google contre-attaque, mais Index Exchange enfonce le clou

    consentement et le contrat de cession de droit à l'image

    Comprendre la demande de consentement et le contrat de cession de droit à l’image

  • Cybersécurité
    • Tous
    • Cyberattaque
    • phishing ou hameçonnage
    • Sécurité

    108 extensions Chrome malveillantes : une campagne russe vole jetons Google et sessions Telegram

    ReCyF ANSSI NIS2 cybersécurité France

    ReCyF : l’ANSSI publie son référentiel de cybersécurité pour anticiper la transposition de NIS 2 en France

    accéder a n'importe quel compte

    Comment le vol de ces donnees permet d’acceder a n’importe quel compte sans jamais taper un seul mot de passe

    Actualités RGPD

    Fuite du code source de Claude Code : quand une erreur de packaging expose 500 000 lignes de code chez Anthropic

    Olvid est choisi pour les ministres

    Pourquoi Olvid affirme ne pas être concernée par l’alerte rouge du C4 sur les messageries

    SaaS et Shadow IT

    SaaS et Shadow IT : quand la prolifération des applications cloud met en péril vos données personnelles

    Airbus rachat Ultra Cyber cybersecurite souveraine europeenne defense

    Airbus rachète Ultra Cyber Ltd et accélère sur la cybersécurité souveraine en Europe

    Cryptographie post-quantique transition securite entreprises chiffrement donnees

    Cryptographie post-quantique : pourquoi les entreprises doivent anticiper la transition dès maintenant

    Piratage FFR fuite de donnees personnelles 530000 licencies rugby France

    Piratage de la FFR : plus de 530 000 licenciés touchés par une fuite de données massive

  • Votre conformité RGPD (Tarifs)
  • Secteurs d’activité
    • Tous
    • Assurance et assimilé
    • Avocat
    • Collectivité territoriale
    • Commissaire aux comptes
    • Communes / Mairies
    • CSE et RGPD
    • ecommerce
    • expert comptable
    • Officines Pharmaceutiques
    • Ressource humaine
    • Services Sociaux
    • Site Internet
    • SPST
    • télétravail
    IA générative et RGPD

    IA et conformité RGPD dans les SPST : fiche pratique pour DPO

    Modifications des traitements de données de santé

    Modifications des traitements de données de santé soumis à formalités : quelles sont les démarches ?

    Gend'Élus

    Gend’Élus, la plateforme des maires : et si la vraie menace pour les communes n’était pas celle qu’on croit ?

    RGPD dans les SPST

    Enquête nationale RGPD dans les SPST : DPO FRANCE lance une première historique

    DPO mutualisé collectivités territoriales

    Conformité RGPD des communes : DPO FRANCE et ETATYS lancent un service DPO mutualisé collectivités territoriales

    conformité au RGPD au sein des CSE

    Fuite de données chez Espace CSE : les informations personnelles de milliers de salariés exposées sur le Dark Web

  • Contact
Pas de résultat
Voir tous les résultats
DPO PARTAGE
Pas de résultat
Voir tous les résultats
Accueil Conformité RGPD

Ce que les IA font de vos données

Claude, ChatGPT, Gemini, Mistral, Grok, DeepSeek

Laurent de Cavel - DPO Par Laurent de Cavel - DPO
26 mars 2026
dans Conformité RGPD
Temps de lecture : 17 minutes
0
une IA pirate une autre IA

Sommaire

Toggle
  • Comment un LLM « apprend » : ce que ça implique
    • Ce que contiennent les poids d'un modèle
    • Les phases d'apprentissage
  • Trois trajectoires pour vos données
    • L'inférence (traitement en direct)
    • Le stockage
    • Le recyclage vers les futurs modèles
  • Vos conversations entraînent-elles l'IA ? La réponse par plateforme
    • ChatGPT (OpenAI)
    • Claude (Anthropic)
    • Gemini (Google)
    • Mistral (Le Chat)
    • Grok (xAI)
    • DeepSeek
  • Tableau comparatif des pratiques
  • Mémorisation : ce que les chercheurs ont effectivement trouvé
    • Un phénomène quantifié
    • Les attaques par extraction
    • Ce qui est le plus exposé
    • La zone grise : inférence et ré-identification
  • Anonymisation : ce qui est déclaré et ce que la recherche dit
    • Les déclarations des opérateurs
    • Ce que la recherche dit
    • Les données d'un tiers : un angle mort
  • Peut-on « retrouver » sa donnée dans un LLM ?
    • Pas comme dans une base de données
    • Mais la réextraction ciblée est possible
    • Le risque inter-sessions : plus immédiat
  • RGPD : les questions ouvertes
    • La base légale de l'entraînement
    • Le droit à l'effacement : un droit difficile à exercer
    • L'enquête EDPB
  • Ce qu'on peut faire
    • Pour tout utilisateur
    • Pour les professionnels et les organisations

La question « où va ma donnée quand je la confie à une IA ? » n’a pas de réponse universelle. Elle dépend de l’opérateur, du type de compte, des paramètres choisis, de la nature de la donnée, et du moment où l’on pose la question.

A lire aussi sur DPO PARTAGE

SD-WAN ou SASE : pourquoi un DPO devrait s’en mêler

Recrutement et réseaux sociaux : un recruteur ne peut pas consulter librement vos profils personnels

Bulletins de paie : durées de conservation et migration d’outil – ce que vous devez vraiment faire

Ce que la recherche établit solidement : les LLMs mémorisent statistiquement des fragments de leurs données d’entraînement, de façon diffuse mais extractible dans certaines conditions. Les conversations des utilisateurs sont utilisées par défaut chez la plupart des opérateurs, et l’opt-out est rarement activé par ceux qui ne sont pas informés. L’anonymisation est invoquée mais rarement détaillée. Et le droit à l’effacement se heurte à une réalité technique que les politiques de confidentialité ne mentionnent pas : une donnée encodée dans les poids d’un modèle déployé ne peut pas, avec les outils actuels, en être retirée.

Sur le plan réglementaire, les autorités européennes convergent vers une position plus stricte sur la base légale requise pour le traitement à des fins d’entraînement. Les premières sanctions significatives sont probables dans les prochains mois. Ce n’est pas une raison d’attendre.

Vous tapez un message dans ChatGPT, Claude ou Gemini. Vous décrivez un symptôme, vous mentionnez le nom d’un patient, vous collez un contrat. Et vous vous demandez, parfois trop tard : où va tout ça ?

La question n’est pas nouvelle, mais elle reste largement sans réponse claire pour la plupart des utilisateurs. Cette donnée est-elle utilisée pour améliorer le modèle ? Le modèle apprend-il de votre conversation en temps réel ? Si vous avez confié des données sur une autre personne (un tiers qui n’a rien demandé), que devient cette information ?

Cet article tente d’y répondre sérieusement. Il s’appuie sur les politiques de confidentialité publiées par les opérateurs, sur des travaux de recherche de Stanford, Carnegie Mellon et Google DeepMind, et sur les procédures engagées par plusieurs autorités de protection des données européennes. Quand les réponses sont floues (et c’est fréquent), il le dit.

 

Comment un LLM « apprend » : ce que ça implique

Ce que contiennent les poids d’un modèle

Un grand modèle de langage n’est pas une base de données. Il ne stocke pas de phrases dans des colonnes que l’on pourrait interroger. Il est constitué de milliards de paramètres numériques (appelés « poids ») qui encodent, de façon diffuse et non linéaire, des associations statistiques entre des tokens. Quand GPT-4 ou Claude génère une réponse, il ne « cherche » pas dans une mémoire : il calcule, étape par étape, la suite la plus probable.

Le modèle n’absorbe donc pas vos données comme un humain mémorise une phrase. Il en intègre les patterns statistiques. Mais ce processus, et c’est là que la recherche réserve des surprises désagréables, peut quand même encoder, de manière diffuse, des fragments identifiables. Des numéros de téléphone. Des adresses. Des extraits de contrats. On y reviendra.

Les phases d’apprentissage

Avant d’arriver dans votre navigateur, un LLM passe par plusieurs étapes :

  • Pré-entraînement (pre-training) : le modèle est entraîné sur des centaines de milliards de tokens issus du web, de livres, de code, de forums. Cette phase prend des semaines, mobilise des milliers de GPU et coûte des dizaines de millions d’euros. Les données sont essentiellement publiques ou achetées sous licence.
  • Affinage (fine-tuning) : le modèle de base est adapté pour se comporter d’une certaine façon : répondre poliment, suivre des instructions, refuser certaines requêtes. Des conversations réelles d’utilisateurs ou des annotations humaines peuvent alimenter cette phase.
  • Alignement RLHF : des annotateurs humains notent les réponses du modèle. Leurs préférences guident un second entraînement. Là encore, vos échanges peuvent être impliqués.
  • Déploiement et inférence : une fois en production, le modèle a des poids figés. Il ne « apprend » plus rien à ce stade.

 

Le modèle ne mémorise pas votre conversation en temps réel.

C’est le point que la plupart des utilisateurs ignorent. Quand vous échangez avec ChatGPT ou Claude, le modèle déployé a des poids figés depuis sa dernière mise à jour. Votre conversation n’est pas immédiatement intégrée dans ses paramètres. Elle est enregistrée côté serveur par l’opérateur, puis éventuellement recyclée dans un futur cycle d’entraînement, parfois plusieurs mois plus tard.

 

Trois trajectoires pour vos données

Une conversation avec un LLM génère des données qui suivent des trajectoires distinctes. Les confondre est une erreur fréquente.

L’inférence (traitement en direct)

Votre message est transmis chiffré au serveur de l’opérateur. Le modèle le traite et renvoie une réponse en quelques secondes. Pendant ce traitement, votre texte est déchiffré, tokenizé, passé dans le réseau de neurones. Ce flux est éphémère du point de vue du modèle : il n’altère pas ses poids. En revanche, l’opérateur peut logguer ce flux côté serveur. C’est précisément là que commence la question de la confidentialité.

Le stockage

Par défaut, quasi tous les opérateurs conservent vos conversations dans leurs serveurs. Ces journaux servent à plusieurs choses : alimenter votre historique, détecter des abus, répondre à d’éventuelles réquisitions judiciaires, et, si vous n’avez pas désactivé l’option, alimenter un futur cycle d’entraînement.

La durée de conservation varie beaucoup selon les opérateurs et le type de compte. Chez OpenAI, une conversation supprimée disparaît des systèmes sous 30 jours, sauf obligation légale. Chez DeepSeek, aucun calendrier de suppression n’est documenté. Chez Anthropic, un contenu automatiquement signalé par les classificateurs de sécurité peut être conservé entre 2 et 7 ans.

Le recyclage vers les futurs modèles

C’est le flux le plus délicat. Une fraction des conversations journalisées est sélectionnée, parfois annotée par des humains, pseudonymisée ou anonymisée selon les cas, puis intégrée dans un dataset d’entraînement. Ce dataset nourrit la prochaine phase de fine-tuning ou d’RLHF, au moment d’une mise à jour du modèle, par exemple le passage de GPT-4 à GPT-4o, de Claude 3 à Claude 3.5, etc.

Ce processus n’est pas continu. Votre conversation d’aujourd’hui ne modifie pas le modèle ce soir. Elle peut en revanche se retrouver, des mois plus tard, dans les données qui forgeront le suivant.

 

Vos conversations entraînent-elles l’IA ? La réponse par plateforme

Une étude de Stanford publiée en 2025, portant sur six opérateurs (Amazon, Anthropic, Google, Meta, Microsoft, OpenAI), a établi que tous les six utilisent les conversations de leurs utilisateurs pour entraîner leurs modèles par défaut. Avec des différences importantes sur ce que « par défaut » signifie en pratique.

ChatGPT (OpenAI)

Sur les comptes gratuits, Plus et Pro, OpenAI active l’utilisation des conversations pour améliorer le modèle sauf si l’utilisateur s’y oppose. L’opt-out se trouve dans Settings > Data Controls > Improve the model for everyone. Une fois basculé sur « off », les nouvelles conversations ne sont plus utilisées.

Le mode Temporary Chat gère les choses différemment : ces conversations ne sont pas sauvegardées dans l’historique, pas utilisées pour l’entraînement, et supprimées sous 30 jours. Pour les comptes Enterprise et Team, l’entraînement est exclu par défaut, sauf opt-in explicite.

Un piège peu documenté : le feedback utilisateur.

Si vous avez activé l’opt-out mais donnez ensuite un feedback (pouce levé ou baissé sur une réponse), la conversation associée peut être utilisée pour l’entraînement. Ce mécanisme a été documenté par des chercheurs de l’Université de Californie comme un pattern de « consentement automatique ». Autrement dit : le pouce levé réactive l’entraînement sur cette conversation même si le curseur est sur « off ».

Claude (Anthropic)

Anthropic a longtemps été considéré comme le plus rigoureux sur ce point : ses offres payantes prévoient contractuellement de ne pas entraîner les modèles sur les données clients. Mais un changement intervenu en septembre 2025 a étendu l’opt-out aux utilisateurs grand public tout en maintenant l’entraînement par défaut sur les comptes gratuits. Quiconque n’a pas vérifié ses paramètres récemment devrait le faire.

Sur la conservation des données : les conversations supprimées sont retirées des systèmes sous 30 jours. Mais si un contenu a déclenché automatiquement un classificateur de sécurité d’Anthropic, il peut rester stocké entre 2 et 7 ans, selon la gravité présumée de la violation.

Gemini (Google)

Google confirme dans sa documentation que des réviseurs humains accèdent aux conversations Gemini pour les annoter. Ce n’est pas une hypothèse : c’est écrit dans la politique de confidentialité. Par ailleurs, dans l’écosystème Google, les interactions Gemini peuvent être croisées avec les données des autres produits : requêtes Search, historique YouTube, achats. L’étude Incogni de 2025 classe Gemini parmi les plateformes les plus intrusives, avec Meta AI.

Un opt-out existe, mais il est fragmenté entre plusieurs interfaces. Il est techniquement difficile d’être certain de l’avoir activé de façon complète.

Mistral (Le Chat)

Société française soumise de plein droit au RGPD, Mistral est classée par plusieurs études comme la plateforme la plus respectueuse de la vie privée parmi les grandes IA grand public. Le Chat offre un opt-out lisible, limite la collecte de données et ne croise pas les interactions avec des produits tiers. Sa politique de confidentialité est plus directe que la moyenne.

Grok (xAI)

La situation de Grok est compliquée par une superposition de régimes. L’accès via grok.com est régi par la politique xAI, avec opt-out disponible. L’accès via la plateforme X (ex-Twitter) obéit à la politique de X. Et c’est là que les choses se gâtent : la Commission irlandaise de protection des données (DPC) a ouvert en avril 2025 une enquête formelle contre X Internet Unlimited Company. Objet : l’utilisation des publications des utilisateurs de X, publiées initialement pour des finalités de réseau social, pour entraîner Grok, sans base légale compatible au sens de l’article 5(1)(b) du RGPD.

DeepSeek

DeepSeek se distingue par l’absence totale d’opt-out documenté. Toute donnée soumise via l’interface peut être réutilisée pour affiner le modèle. L’ensemble des données est stocké sur des serveurs en Chine continentale, soumis au droit chinois, y compris les obligations de coopération avec les autorités de renseignement.

Le Garante (autorité italienne) a ordonné la suspension de DeepSeek dès janvier 2025 après des réponses jugées « totalement insuffisantes » sur les transferts de données hors UE. Plusieurs autres autorités européennes ont suivi. En pratique, utiliser DeepSeek dans un contexte professionnel soumis au RGPD relève du risque délibéré.

 

Tableau comparatif des pratiques

Synthèse des pratiques des six plateformes examinées :

Plateforme Entraînementpar défaut Opt-outdisponible Donnéesstockées (durée) Anonymi-sation déclarée RGPDconformité
Claude (Anthropic) Oui (gratuit) Oui (depuis sept. 2025 ; non par défaut sur offres payantes) 30 j. si supprimé ; 2-7 ans si contenu flaggé Partielle, non publique Partiel (DPA disponible)
ChatGPT (OpenAI) Oui (gratuit/Plus/Pro) Oui (Settings > Data Controls) 30 j. après suppression Déclarée avant usage en training DPA disponible ; enquêtes en cours
Gemini (Google) Oui Oui mais fragmenté Non précisé / long Revue humaine des conversations Parmi les moins vertueux (Incogni 2025)
Mistral (Le Chat) Paramétrable Oui, meilleure note de confidentialité Selon paramétrage Limitée Entreprise française / RGPD applicable
Grok (xAI) Oui (via X) Oui (grok.com) ; données X : procédure DPC irlandaise Non précisé Floue Enquête DPC Irlande 2025
DeepSeek Oui Aucun opt-out Indéfini / Chine Non documentée Non conforme RGPD, banni en Italie, suspendu dans plusieurs pays

 

Sources : politiques de confidentialité des opérateurs, rapport Incogni (juillet 2025), étude Stanford (septembre 2025), DPC irlandais (avril 2025), Garante italien (janvier 2025).

Mémorisation : ce que les chercheurs ont effectivement trouvé

C’est le sujet le plus actif en recherche sur la confidentialité des IA. Et les résultats sont plus préoccupants que ce que les politiques de confidentialité des opérateurs laissent entendre.

Un phénomène quantifié

En 2022, Nicholas Carlini et ses coauteurs (Google Brain) ont publié une étude qui établit trois relations mesurables : la mémorisation verbatim croît avec la taille du modèle, avec le nombre de répétitions d’un passage dans les données d’entraînement, et avec la longueur du contexte fourni au modèle. Leur conclusion est directe : la mémorisation dans les LLMs est plus répandue qu’on ne le croyait, et elle s’aggravera au fur et à mesure que les modèles grossissent, sans mesures correctives actives.

En pratique, cette mémorisation verbatim concerne des structures bien précises : adresses électroniques, numéros de téléphone, URL, identifiants, fragments de code, extraits de textes très répétés dans le corpus. Des chercheurs ont extrait d’un modèle GPT-2, via des requêtes spécialement construites, 1 450 lignes de code source verbatim, des biographies personnelles et des données d’identification, tous extraits de dépôts GitHub publics et de pages web.

Les attaques par extraction

Deux familles d’attaques sont désormais bien documentées :

  • Les attaques par « divergence » : en répétant un token de façon anormale, on peut amener un LLM à s’affranchir de son comportement de chatbot et à régurgiter du contenu mémorisé. Nasr et al. (2025) ont montré que cette technique permet de contourner l’alignement de sécurité de modèles en production.
  • Les attaques par décomposition : en posant des questions ciblées sur des fragments d’une donnée, on peut la reconstituer par assemblage, même sans accès aux données d’entraînement (Carlini, 2024).
  • Les attaques d’inférence d’appartenance : il est possible de déterminer, avec une probabilité significative, si un texte donné faisait partie du corpus d’entraînement d’un modèle.

Ce qui est le plus exposé

Les données les plus susceptibles d’être mémorisées présentent des caractéristiques précises : elles se répètent dans le corpus, elles comportent des entités nommées (noms propres, URL, codes), et elles forment des séquences longues. Une conversation ordinaire saisie une seule fois a peu de chances d’être mémorisée verbatim dans le modèle final, sous réserve qu’elle ne soit pas répliquée dans un dataset de fine-tuning très ciblé. C’est une nuance importante : le risque n’est pas nul, mais il n’est pas non plus uniformément élevé.

La zone grise : inférence et ré-identification

Le risque le moins visible est peut-être celui-là. Des chercheurs de Princeton (Staab et al., 2024) ont montré que les LLMs peuvent prédire avec précision des attributs personnels (profession, tranche d’âge, zone géographique, état de santé probable) à partir de données apparemment anodines soumises dans un prompt. Ce n’est pas de la mémorisation au sens strict. C’est de l’inférence à grande échelle. Et elle s’applique aussi aux tiers dont l’utilisateur mentionne l’identité dans ses messages.

 

Anonymisation : ce qui est déclaré et ce que la recherche dit

Les déclarations des opérateurs

La plupart des opérateurs affirment anonymiser ou pseudonymiser les données avant usage en entraînement. OpenAI indique « prendre des mesures pour réduire les informations personnelles dans les datasets ». Anthropic parle d’anonymisation sans détailler la méthode. Google confirme, lui, que des conversations Gemini sont lues par des humains avant traitement, ce qui signifie qu’elles ne sont pas anonymisées à ce stade.

Ce que la recherche dit

La recherche est assez sèche sur ce point : l’anonymisation parfaite d’une donnée conversationnelle est un problème non résolu. Les techniques couramment employées, comme la suppression des noms ou la pseudonymisation par remplacement, sont insuffisantes face à des modèles capables d’inférer des attributs identifiants à partir du contexte sémantique. Des données prétendument anonymisées peuvent être ré-identifiées par recoupement.

La technique théoriquement la plus robuste est la confidentialité différentielle : elle consiste à ajouter du bruit statistique calibré aux gradients lors de l’entraînement, limitant mathématiquement la capacité du modèle à mémoriser des exemples individuels. Certains opérateurs la mentionnent dans leurs publications de recherche. Son application systématique dans les modèles grand public reste non confirmée publiquement. C’est flou, et ce flou est lui-même un problème.

Les données d’un tiers : un angle mort

Un cas fréquent, peu analysé : vous confiez à un LLM des données qui ne vous appartiennent pas : le nom d’un patient, les coordonnées d’un client, les termes d’un accord négocié. Vous êtes, au regard du RGPD, responsable de ce traitement. La personne concernée n’a pas consenti à ce que ses données transitent par un LLM américain ou chinois, soient potentiellement stockées pendant des mois et susceptibles d’alimenter un futur entraînement.

Risque professionnel à ne pas sous-estimer

Un médecin qui décrit un cas clinique, un avocat qui saisit un contrat, un DRH qui demande de l’aide pour rédiger une lettre de licenciement : dans chacun de ces cas, des données à caractère personnel (parfois catégories spéciales au sens de l’article 9 du RGPD) sont transmises à un opérateur dont la politique d’entraînement n’est pas neutre. La base légale de ce traitement n’est, dans la quasi-totalité des cas, pas établie.

Peut-on « retrouver » sa donnée dans un LLM ?

Pas comme dans une base de données

Un LLM ne fonctionne pas comme un moteur de recherche. Vous ne pouvez pas l’interroger avec une requête précise et récupérer une ligne contenant vos données. Si vos informations ont été intégrées dans un corpus d’entraînement, elles y sont dissoutes dans les milliards de paramètres sous forme de patterns statistiques diffus.

Mais la réextraction ciblée est possible

Les travaux de Carlini (2021, 2022, 2024) et de Nasr et al. (2023, 2025) le montrent : une réextraction partielle ou ciblée est atteignable via des prompts spécialement construits. Les conditions les plus favorables à cette réextraction : la donnée a été exposée de façon répétée dans le corpus, elle comporte des entités nommées distinctives, le modèle est de grande taille, et le prompt reproduit partiellement le contexte original.

En dehors de ces conditions, la probabilité qu’un utilisateur ordinaire retrouve une donnée spécifique dans un modèle est très faible. Mais la recherche indique qu’elle croît avec la taille des futurs modèles. C’est une tendance à suivre.

Le risque inter-sessions : plus immédiat

Un risque différent et plus concret : les fonctions de mémoire persistante (la « Memory » de ChatGPT, les « projets » Claude). Ces fonctions stockent explicitement des informations extraites de vos conversations pour les réutiliser dans des sessions futures. Si vous mentionnez votre nom, votre employeur, vos habitudes de santé, ces données peuvent ressurgir dans une réponse ultérieure, hors contexte, parfois de façon inattendue. Des chercheurs ont documenté des cas où des données de sessions précédentes réapparaissaient si les tampons de mémoire n’étaient pas correctement gérés.

 

RGPD : les questions ouvertes

La base légale de l’entraînement

Utiliser des données personnelles contenues dans des conversations pour entraîner un LLM constitue un traitement au sens de l’article 4(2) du RGPD. Ce traitement doit reposer sur une base légale valide. En pratique, trois scénarios :

  • L’intérêt légitime (article 6(1)(f)) est la base invoquée par la plupart des opérateurs. L’EDPB et plusieurs autorités nationales considèrent que le changement de finalité, c’est-à-dire passer de « fournir un service de chatbot » à « entraîner un modèle IA commercial », nécessite une compatibilité de finalités au sens de l’article 5(1)(b), ou un consentement spécifique. L’affaire Grok/X devant le DPC irlandais porte précisément sur ce point.
  • Le consentement (article 6(1)(a)) est la base la plus solide, mais il doit être libre, spécifique, éclairé et univoque. Un mécanisme d’opt-out n’est pas un consentement : c’est l’absence de refus.
  • Pour les catégories spéciales de données (santé, orientation sexuelle, convictions, etc.), l’article 9 requiert un consentement explicite ou l’une des exceptions limitativement énumérées. Aucun opérateur grand public ne satisfait clairement à cette exigence.

Le droit à l’effacement : un droit difficile à exercer

L’article 17 du RGPD garantit le droit à l’effacement. Mais une fois des données intégrées dans les poids d’un modèle, leur suppression technique est très difficile. La technique dite de « machine unlearning » est en développement actif dans la recherche mais pas encore opérationnelle à grande échelle. Les opérateurs peuvent supprimer vos données de leurs journaux et les exclure des futurs datasets. Ils ne peuvent pas garantir l’effacement de l’empreinte statistique d’une donnée déjà encodée dans un modèle déployé.

L’enquête EDPB

En mai 2024, l’EDPB a lancé une enquête coordonnée sur le déploiement de ChatGPT par plusieurs autorités européennes. Le DPC irlandais a par ailleurs saisi l’EDPB d’une demande d’avis au titre de l’article 64(2) du RGPD, pour obtenir une position commune sur la base légale du traitement des données personnelles aux différentes étapes de l’entraînement d’un LLM. Ces positions, attendues courant 2025-2026, pourraient modifier significativement les pratiques du secteur.

Ce qu’on peut faire

Pour tout utilisateur

  • Vérifiez les paramètres de confidentialité de chaque IA que vous utilisez. L’opt-out n’est jamais activé par défaut : il faut aller le chercher, et le vérifier à chaque mise à jour des conditions générales.
  • N’utilisez pas un LLM grand public pour traiter des données personnelles sensibles (santé, coordonnées bancaires, données d’identification) sans avoir vérifié le cadre contractuel.
  • Préférez le mode de conversation temporaire (ChatGPT Temporary Chat, sessions sans historique) pour les sujets sensibles.
  • Ne supposez pas que l’anonymisation déclarée par un opérateur est techniquement robuste. Ce n’est, la plupart du temps, pas vérifiable.

Pour les professionnels et les organisations

  • Exigez un Data Processing Agreement (DPA) conforme RGPD avant tout déploiement d’IA dans un contexte professionnel. Sans DPA, il n’y a pas de cadre.
  • Pour les données de santé ou relevant de l’article 9 du RGPD, seule une infrastructure en local (on-premise) ou sous un accord Zero Data Retention (ZDR) contractualisé offre un niveau de garantie acceptable.
  • Mettez en place une politique d’usage de l’IA qui définit quelles catégories de données peuvent ou ne peuvent pas être soumises à un LLM externe.
  • Réalisez une AIPD avant tout déploiement d’IA dans un traitement susceptible d’impacter les droits des personnes concernées.
  • Excluez DeepSeek de tout environnement professionnel soumis au RGPD.
Tweet245Partage69
Article précédent

Airbus rachète Ultra Cyber Ltd et accélère sur la cybersécurité souveraine en Europe

Article suivant

Trivy empoisonné : quand l’outil de sécurité devient lui-même la menace

Laurent de Cavel - DPO

Laurent de Cavel - DPO

DPO EXTERNALISE - Disponible du Lundi au Samedi - Contactez nous au 01 83 64 42 98 ou par mail à contact@dpo-partage.fr DPO PARTAGE est le leader des DPO en données de santé et données sensibles. - Retrouvez-nous sur Google News - Membre DPO FRANCE

Related Articles

SD-WAN ou SASE : pourquoi un DPO devrait s'en mêler
Conformité RGPD

SD-WAN ou SASE : pourquoi un DPO devrait s’en mêler

27 avril 2026
recrutement réseaux sociaux RGPD données personnelles
Actualités et DPO externalisé

Recrutement et réseaux sociaux : un recruteur ne peut pas consulter librement vos profils personnels

31 mars 2026
Conformité RGPD

Bulletins de paie : durées de conservation et migration d’outil – ce que vous devez vraiment faire

27 mars 2026
Trivy empoisonné
Conformité RGPD

Trivy empoisonné : quand l’outil de sécurité devient lui-même la menace

26 mars 2026
Camera de surveillance avec microphone et regles CNIL videoprotection donnees personnelles
CNIL

Caméras de surveillance et captation sonore : les règles CNIL pour la vidéoprotection

26 mars 2026
Don't Go to the Police
Conformité RGPD

« Don’t Go to the Police » : quand Orange Cyberdefense transforme une cyberattaque dévastatrice en film événement

24 mars 2026
Article suivant
Trivy empoisonné

Trivy empoisonné : quand l'outil de sécurité devient lui-même la menace

RIFI : comment détecter une fuite de données

RIFI : comment détecter une fuite de données sur Internet en conformité avec le RGPD

APPLICATION RGPD

Démo gratuite

Découvrez DPO SUITE

Gérez votre conformité RGPD de A à Z avec une solution qui anticipe les évolutions réglementaires, sans effort supplémentaire.

Rappel par un expert dans les prochaines minutes

Vos données sont traitées pour répondre à votre demande. En savoir plus.

Demande envoyée !

Un expert DPO PARTAGE vous rappelle
dans les prochaines minutes.

Articles recommandés

Afnor cybersécurité

Pourquoi l’Afnor Intègre la Cybersécurité dans le Calcul d’un Bonus de l’Intéressement

7 mars 2026
RGPD Sous-Traitants

Les Impératifs du RGPD pour les Sous-Traitants : Une Analyse Approfondie de l’Article 28

7 mars 2026
Politique de Stockage des Données pour SPSTi

Politique de Stockage des Données pour SPSTi

26 mars 2026

Articles populaires

  • Modèles d'autorisation de droit à l'image

    Modèles d’autorisation de droit à l’image pour les entreprises : un guide essentiel

    15120 Partages
    Partage 6048 Tweet 3780
  • Arnaques Vinted : le guide complet de toutes les escroqueries qui sévissent en 2026

    1195 Partages
    Partage 478 Tweet 299
  • Telegram : ces paramètres de confidentialité que vous devriez activer immédiatement

    2598 Partages
    Partage 1039 Tweet 650
  • Quelle durée de conservation pour les arrêts maladies ?

    2294 Partages
    Partage 918 Tweet 574
  • Plainte pour divulgation de données personnelles : Comment agir ?

    3222 Partages
    Partage 1289 Tweet 806
DPO PARTAGE DPO externalisé

DPO Partage se positionne comme un acteur clé dans le domaine de la protection des données personnelles, en offrant une gamme complète de services axés sur le Règlement Général sur la Protection des Données (RGPD). Notre structure fournit des informations régulières et pointues sur les dernières évolutions et exigences du RGPD, ce qui en fait une ressource précieuse pour les entreprises soucieuses de se conformer à la législation.

Faites appel à DPO PARTAGE pour votre conformité RGPD.
Contactez nous au 01 83 64 42 98
En savoir plus »

Articles récents

  • Shadow AI : quand les usages IA échappent progressivement à la gouvernance des organisations
  • 108 extensions Chrome malveillantes : une campagne russe vole jetons Google et sessions Telegram
  • SD-WAN ou SASE : pourquoi un DPO devrait s’en mêler
  • IA et conformité RGPD dans les SPST : fiche pratique pour DPO
  • « C’est l’outil du fournisseur, pas le nôtre » : l’erreur qui expose les déployeurs RH

Catégories

  • Mentions Légales
  • Politique de confidentialité
  • Politique cookies DPO Partagé
  • Nous contacter
  • Politique de cookies (UE)

© 2026 DPO PARTAGE - Pilote de votre conformité RGPD

Ravi de vous revoir"

Connectez-vous avec votre compte

Mot de passe oublié ?

Retrieve your password

Please enter your username or email address to reset your password.

Se connecter
Question ?

Question ?

Comment pouvons-nous vous aider ?

Être rappelé

Vos données sont traitées conformément au RGPD.

Voir une démo

Vos données sont traitées conformément au RGPD.

Demander un devis

Vos données sont traitées conformément au RGPD.

Demande envoyée !

Nous reviendrons vers vous très rapidement.

Une erreur est survenue

Veuillez réessayer ou nous contacter directement.

Gérer le consentement aux cookies
Pour offrir les meilleures expériences, nous utilisons des technologies telles que les cookies pour stocker et/ou accéder aux informations des appareils. Le fait de consentir à ces technologies nous permettra de traiter des données telles que le comportement de navigation ou les ID uniques sur ce site. Le fait de ne pas consentir ou de retirer son consentement peut avoir un effet négatif sur certaines caractéristiques et fonctions.
Fonctionnel Toujours activé
Le stockage ou l’accès technique est strictement nécessaire dans la finalité d’intérêt légitime de permettre l’utilisation d’un service spécifique explicitement demandé par l’abonné ou l’utilisateur, ou dans le seul but d’effectuer la transmission d’une communication sur un réseau de communications électroniques.
Préférences
Le stockage ou l’accès technique est nécessaire dans la finalité d’intérêt légitime de stocker des préférences qui ne sont pas demandées par l’abonné ou l’utilisateur.
Statistiques
Le stockage ou l’accès technique qui est utilisé exclusivement à des fins statistiques. Le stockage ou l’accès technique qui est utilisé exclusivement dans des finalités statistiques anonymes. En l’absence d’une assignation à comparaître, d’une conformité volontaire de la part de votre fournisseur d’accès à internet ou d’enregistrements supplémentaires provenant d’une tierce partie, les informations stockées ou extraites à cette seule fin ne peuvent généralement pas être utilisées pour vous identifier.
Marketing
Le stockage ou l’accès technique est nécessaire pour créer des profils d’utilisateurs afin d’envoyer des publicités, ou pour suivre l’utilisateur sur un site web ou sur plusieurs sites web ayant des finalités marketing similaires.
  • Gérer les options
  • Gérer les services
  • Gérer {vendor_count} fournisseurs
  • En savoir plus sur ces finalités
Voir les préférences
  • {title}
  • {title}
  • {title}

Tapez votre recherche et appuyez sur Entree

Conformite RGPD Externaliser mon DPO Audit cybersecurite Se preparer a l'IA Act Conformite NIS2 Conformite DORA

Analyse en cours...

Analyse IA

Solution DPO FRANCE

Devis 24h

Articles

Recevoir notre veille ""

Newsletter via Brevo - desinscription a tout moment

Pas de résultat
Voir tous les résultats
  • Accueil
  • Cybersécurité
  • Votre conformité RGPD (Tarifs)
  • Secteurs d’activité
  • Contact

© 2026 DPO PARTAGE - Pilote de votre conformité RGPD