La question « où va ma donnée quand je la confie à une IA ? » n’a pas de réponse universelle. Elle dépend de l’opérateur, du type de compte, des paramètres choisis, de la nature de la donnée, et du moment où l’on pose la question.
Ce que la recherche établit solidement : les LLMs mémorisent statistiquement des fragments de leurs données d’entraînement, de façon diffuse mais extractible dans certaines conditions. Les conversations des utilisateurs sont utilisées par défaut chez la plupart des opérateurs, et l’opt-out est rarement activé par ceux qui ne sont pas informés. L’anonymisation est invoquée mais rarement détaillée. Et le droit à l’effacement se heurte à une réalité technique que les politiques de confidentialité ne mentionnent pas : une donnée encodée dans les poids d’un modèle déployé ne peut pas, avec les outils actuels, en être retirée.
Sur le plan réglementaire, les autorités européennes convergent vers une position plus stricte sur la base légale requise pour le traitement à des fins d’entraînement. Les premières sanctions significatives sont probables dans les prochains mois. Ce n’est pas une raison d’attendre.
Vous tapez un message dans ChatGPT, Claude ou Gemini. Vous décrivez un symptôme, vous mentionnez le nom d’un patient, vous collez un contrat. Et vous vous demandez, parfois trop tard : où va tout ça ?
La question n’est pas nouvelle, mais elle reste largement sans réponse claire pour la plupart des utilisateurs. Cette donnée est-elle utilisée pour améliorer le modèle ? Le modèle apprend-il de votre conversation en temps réel ? Si vous avez confié des données sur une autre personne (un tiers qui n’a rien demandé), que devient cette information ?
Cet article tente d’y répondre sérieusement. Il s’appuie sur les politiques de confidentialité publiées par les opérateurs, sur des travaux de recherche de Stanford, Carnegie Mellon et Google DeepMind, et sur les procédures engagées par plusieurs autorités de protection des données européennes. Quand les réponses sont floues (et c’est fréquent), il le dit.
Comment un LLM « apprend » : ce que ça implique
Ce que contiennent les poids d’un modèle
Un grand modèle de langage n’est pas une base de données. Il ne stocke pas de phrases dans des colonnes que l’on pourrait interroger. Il est constitué de milliards de paramètres numériques (appelés « poids ») qui encodent, de façon diffuse et non linéaire, des associations statistiques entre des tokens. Quand GPT-4 ou Claude génère une réponse, il ne « cherche » pas dans une mémoire : il calcule, étape par étape, la suite la plus probable.
Le modèle n’absorbe donc pas vos données comme un humain mémorise une phrase. Il en intègre les patterns statistiques. Mais ce processus, et c’est là que la recherche réserve des surprises désagréables, peut quand même encoder, de manière diffuse, des fragments identifiables. Des numéros de téléphone. Des adresses. Des extraits de contrats. On y reviendra.
Les phases d’apprentissage
Avant d’arriver dans votre navigateur, un LLM passe par plusieurs étapes :
- Pré-entraînement (pre-training) : le modèle est entraîné sur des centaines de milliards de tokens issus du web, de livres, de code, de forums. Cette phase prend des semaines, mobilise des milliers de GPU et coûte des dizaines de millions d’euros. Les données sont essentiellement publiques ou achetées sous licence.
- Affinage (fine-tuning) : le modèle de base est adapté pour se comporter d’une certaine façon : répondre poliment, suivre des instructions, refuser certaines requêtes. Des conversations réelles d’utilisateurs ou des annotations humaines peuvent alimenter cette phase.
- Alignement RLHF : des annotateurs humains notent les réponses du modèle. Leurs préférences guident un second entraînement. Là encore, vos échanges peuvent être impliqués.
- Déploiement et inférence : une fois en production, le modèle a des poids figés. Il ne « apprend » plus rien à ce stade.
| Le modèle ne mémorise pas votre conversation en temps réel.
C’est le point que la plupart des utilisateurs ignorent. Quand vous échangez avec ChatGPT ou Claude, le modèle déployé a des poids figés depuis sa dernière mise à jour. Votre conversation n’est pas immédiatement intégrée dans ses paramètres. Elle est enregistrée côté serveur par l’opérateur, puis éventuellement recyclée dans un futur cycle d’entraînement, parfois plusieurs mois plus tard. |
Trois trajectoires pour vos données
Une conversation avec un LLM génère des données qui suivent des trajectoires distinctes. Les confondre est une erreur fréquente.
L’inférence (traitement en direct)
Votre message est transmis chiffré au serveur de l’opérateur. Le modèle le traite et renvoie une réponse en quelques secondes. Pendant ce traitement, votre texte est déchiffré, tokenizé, passé dans le réseau de neurones. Ce flux est éphémère du point de vue du modèle : il n’altère pas ses poids. En revanche, l’opérateur peut logguer ce flux côté serveur. C’est précisément là que commence la question de la confidentialité.
Le stockage
Par défaut, quasi tous les opérateurs conservent vos conversations dans leurs serveurs. Ces journaux servent à plusieurs choses : alimenter votre historique, détecter des abus, répondre à d’éventuelles réquisitions judiciaires, et, si vous n’avez pas désactivé l’option, alimenter un futur cycle d’entraînement.
La durée de conservation varie beaucoup selon les opérateurs et le type de compte. Chez OpenAI, une conversation supprimée disparaît des systèmes sous 30 jours, sauf obligation légale. Chez DeepSeek, aucun calendrier de suppression n’est documenté. Chez Anthropic, un contenu automatiquement signalé par les classificateurs de sécurité peut être conservé entre 2 et 7 ans.
Le recyclage vers les futurs modèles
C’est le flux le plus délicat. Une fraction des conversations journalisées est sélectionnée, parfois annotée par des humains, pseudonymisée ou anonymisée selon les cas, puis intégrée dans un dataset d’entraînement. Ce dataset nourrit la prochaine phase de fine-tuning ou d’RLHF, au moment d’une mise à jour du modèle, par exemple le passage de GPT-4 à GPT-4o, de Claude 3 à Claude 3.5, etc.
Ce processus n’est pas continu. Votre conversation d’aujourd’hui ne modifie pas le modèle ce soir. Elle peut en revanche se retrouver, des mois plus tard, dans les données qui forgeront le suivant.
Vos conversations entraînent-elles l’IA ? La réponse par plateforme
Une étude de Stanford publiée en 2025, portant sur six opérateurs (Amazon, Anthropic, Google, Meta, Microsoft, OpenAI), a établi que tous les six utilisent les conversations de leurs utilisateurs pour entraîner leurs modèles par défaut. Avec des différences importantes sur ce que « par défaut » signifie en pratique.
ChatGPT (OpenAI)
Sur les comptes gratuits, Plus et Pro, OpenAI active l’utilisation des conversations pour améliorer le modèle sauf si l’utilisateur s’y oppose. L’opt-out se trouve dans Settings > Data Controls > Improve the model for everyone. Une fois basculé sur « off », les nouvelles conversations ne sont plus utilisées.
Le mode Temporary Chat gère les choses différemment : ces conversations ne sont pas sauvegardées dans l’historique, pas utilisées pour l’entraînement, et supprimées sous 30 jours. Pour les comptes Enterprise et Team, l’entraînement est exclu par défaut, sauf opt-in explicite.
| Un piège peu documenté : le feedback utilisateur.
Si vous avez activé l’opt-out mais donnez ensuite un feedback (pouce levé ou baissé sur une réponse), la conversation associée peut être utilisée pour l’entraînement. Ce mécanisme a été documenté par des chercheurs de l’Université de Californie comme un pattern de « consentement automatique ». Autrement dit : le pouce levé réactive l’entraînement sur cette conversation même si le curseur est sur « off ». |
Claude (Anthropic)
Anthropic a longtemps été considéré comme le plus rigoureux sur ce point : ses offres payantes prévoient contractuellement de ne pas entraîner les modèles sur les données clients. Mais un changement intervenu en septembre 2025 a étendu l’opt-out aux utilisateurs grand public tout en maintenant l’entraînement par défaut sur les comptes gratuits. Quiconque n’a pas vérifié ses paramètres récemment devrait le faire.
Sur la conservation des données : les conversations supprimées sont retirées des systèmes sous 30 jours. Mais si un contenu a déclenché automatiquement un classificateur de sécurité d’Anthropic, il peut rester stocké entre 2 et 7 ans, selon la gravité présumée de la violation.
Gemini (Google)
Google confirme dans sa documentation que des réviseurs humains accèdent aux conversations Gemini pour les annoter. Ce n’est pas une hypothèse : c’est écrit dans la politique de confidentialité. Par ailleurs, dans l’écosystème Google, les interactions Gemini peuvent être croisées avec les données des autres produits : requêtes Search, historique YouTube, achats. L’étude Incogni de 2025 classe Gemini parmi les plateformes les plus intrusives, avec Meta AI.
Un opt-out existe, mais il est fragmenté entre plusieurs interfaces. Il est techniquement difficile d’être certain de l’avoir activé de façon complète.
Mistral (Le Chat)
Société française soumise de plein droit au RGPD, Mistral est classée par plusieurs études comme la plateforme la plus respectueuse de la vie privée parmi les grandes IA grand public. Le Chat offre un opt-out lisible, limite la collecte de données et ne croise pas les interactions avec des produits tiers. Sa politique de confidentialité est plus directe que la moyenne.
Grok (xAI)
La situation de Grok est compliquée par une superposition de régimes. L’accès via grok.com est régi par la politique xAI, avec opt-out disponible. L’accès via la plateforme X (ex-Twitter) obéit à la politique de X. Et c’est là que les choses se gâtent : la Commission irlandaise de protection des données (DPC) a ouvert en avril 2025 une enquête formelle contre X Internet Unlimited Company. Objet : l’utilisation des publications des utilisateurs de X, publiées initialement pour des finalités de réseau social, pour entraîner Grok, sans base légale compatible au sens de l’article 5(1)(b) du RGPD.
DeepSeek
DeepSeek se distingue par l’absence totale d’opt-out documenté. Toute donnée soumise via l’interface peut être réutilisée pour affiner le modèle. L’ensemble des données est stocké sur des serveurs en Chine continentale, soumis au droit chinois, y compris les obligations de coopération avec les autorités de renseignement.
Le Garante (autorité italienne) a ordonné la suspension de DeepSeek dès janvier 2025 après des réponses jugées « totalement insuffisantes » sur les transferts de données hors UE. Plusieurs autres autorités européennes ont suivi. En pratique, utiliser DeepSeek dans un contexte professionnel soumis au RGPD relève du risque délibéré.
Tableau comparatif des pratiques
Synthèse des pratiques des six plateformes examinées :
| Plateforme | Entraînementpar défaut | Opt-outdisponible | Donnéesstockées (durée) | Anonymi-sation déclarée | RGPDconformité |
| Claude (Anthropic) | Oui (gratuit) | Oui (depuis sept. 2025 ; non par défaut sur offres payantes) | 30 j. si supprimé ; 2-7 ans si contenu flaggé | Partielle, non publique | Partiel (DPA disponible) |
| ChatGPT (OpenAI) | Oui (gratuit/Plus/Pro) | Oui (Settings > Data Controls) | 30 j. après suppression | Déclarée avant usage en training | DPA disponible ; enquêtes en cours |
| Gemini (Google) | Oui | Oui mais fragmenté | Non précisé / long | Revue humaine des conversations | Parmi les moins vertueux (Incogni 2025) |
| Mistral (Le Chat) | Paramétrable | Oui, meilleure note de confidentialité | Selon paramétrage | Limitée | Entreprise française / RGPD applicable |
| Grok (xAI) | Oui (via X) | Oui (grok.com) ; données X : procédure DPC irlandaise | Non précisé | Floue | Enquête DPC Irlande 2025 |
| DeepSeek | Oui | Aucun opt-out | Indéfini / Chine | Non documentée | Non conforme RGPD, banni en Italie, suspendu dans plusieurs pays |
Sources : politiques de confidentialité des opérateurs, rapport Incogni (juillet 2025), étude Stanford (septembre 2025), DPC irlandais (avril 2025), Garante italien (janvier 2025).
Mémorisation : ce que les chercheurs ont effectivement trouvé
C’est le sujet le plus actif en recherche sur la confidentialité des IA. Et les résultats sont plus préoccupants que ce que les politiques de confidentialité des opérateurs laissent entendre.
Un phénomène quantifié
En 2022, Nicholas Carlini et ses coauteurs (Google Brain) ont publié une étude qui établit trois relations mesurables : la mémorisation verbatim croît avec la taille du modèle, avec le nombre de répétitions d’un passage dans les données d’entraînement, et avec la longueur du contexte fourni au modèle. Leur conclusion est directe : la mémorisation dans les LLMs est plus répandue qu’on ne le croyait, et elle s’aggravera au fur et à mesure que les modèles grossissent, sans mesures correctives actives.
En pratique, cette mémorisation verbatim concerne des structures bien précises : adresses électroniques, numéros de téléphone, URL, identifiants, fragments de code, extraits de textes très répétés dans le corpus. Des chercheurs ont extrait d’un modèle GPT-2, via des requêtes spécialement construites, 1 450 lignes de code source verbatim, des biographies personnelles et des données d’identification, tous extraits de dépôts GitHub publics et de pages web.
Les attaques par extraction
Deux familles d’attaques sont désormais bien documentées :
- Les attaques par « divergence » : en répétant un token de façon anormale, on peut amener un LLM à s’affranchir de son comportement de chatbot et à régurgiter du contenu mémorisé. Nasr et al. (2025) ont montré que cette technique permet de contourner l’alignement de sécurité de modèles en production.
- Les attaques par décomposition : en posant des questions ciblées sur des fragments d’une donnée, on peut la reconstituer par assemblage, même sans accès aux données d’entraînement (Carlini, 2024).
- Les attaques d’inférence d’appartenance : il est possible de déterminer, avec une probabilité significative, si un texte donné faisait partie du corpus d’entraînement d’un modèle.
Ce qui est le plus exposé
Les données les plus susceptibles d’être mémorisées présentent des caractéristiques précises : elles se répètent dans le corpus, elles comportent des entités nommées (noms propres, URL, codes), et elles forment des séquences longues. Une conversation ordinaire saisie une seule fois a peu de chances d’être mémorisée verbatim dans le modèle final, sous réserve qu’elle ne soit pas répliquée dans un dataset de fine-tuning très ciblé. C’est une nuance importante : le risque n’est pas nul, mais il n’est pas non plus uniformément élevé.
La zone grise : inférence et ré-identification
Le risque le moins visible est peut-être celui-là. Des chercheurs de Princeton (Staab et al., 2024) ont montré que les LLMs peuvent prédire avec précision des attributs personnels (profession, tranche d’âge, zone géographique, état de santé probable) à partir de données apparemment anodines soumises dans un prompt. Ce n’est pas de la mémorisation au sens strict. C’est de l’inférence à grande échelle. Et elle s’applique aussi aux tiers dont l’utilisateur mentionne l’identité dans ses messages.
Anonymisation : ce qui est déclaré et ce que la recherche dit
Les déclarations des opérateurs
La plupart des opérateurs affirment anonymiser ou pseudonymiser les données avant usage en entraînement. OpenAI indique « prendre des mesures pour réduire les informations personnelles dans les datasets ». Anthropic parle d’anonymisation sans détailler la méthode. Google confirme, lui, que des conversations Gemini sont lues par des humains avant traitement, ce qui signifie qu’elles ne sont pas anonymisées à ce stade.
Ce que la recherche dit
La recherche est assez sèche sur ce point : l’anonymisation parfaite d’une donnée conversationnelle est un problème non résolu. Les techniques couramment employées, comme la suppression des noms ou la pseudonymisation par remplacement, sont insuffisantes face à des modèles capables d’inférer des attributs identifiants à partir du contexte sémantique. Des données prétendument anonymisées peuvent être ré-identifiées par recoupement.
La technique théoriquement la plus robuste est la confidentialité différentielle : elle consiste à ajouter du bruit statistique calibré aux gradients lors de l’entraînement, limitant mathématiquement la capacité du modèle à mémoriser des exemples individuels. Certains opérateurs la mentionnent dans leurs publications de recherche. Son application systématique dans les modèles grand public reste non confirmée publiquement. C’est flou, et ce flou est lui-même un problème.
Les données d’un tiers : un angle mort
Un cas fréquent, peu analysé : vous confiez à un LLM des données qui ne vous appartiennent pas : le nom d’un patient, les coordonnées d’un client, les termes d’un accord négocié. Vous êtes, au regard du RGPD, responsable de ce traitement. La personne concernée n’a pas consenti à ce que ses données transitent par un LLM américain ou chinois, soient potentiellement stockées pendant des mois et susceptibles d’alimenter un futur entraînement.
| Risque professionnel à ne pas sous-estimer
Un médecin qui décrit un cas clinique, un avocat qui saisit un contrat, un DRH qui demande de l’aide pour rédiger une lettre de licenciement : dans chacun de ces cas, des données à caractère personnel (parfois catégories spéciales au sens de l’article 9 du RGPD) sont transmises à un opérateur dont la politique d’entraînement n’est pas neutre. La base légale de ce traitement n’est, dans la quasi-totalité des cas, pas établie. |
Peut-on « retrouver » sa donnée dans un LLM ?
Pas comme dans une base de données
Un LLM ne fonctionne pas comme un moteur de recherche. Vous ne pouvez pas l’interroger avec une requête précise et récupérer une ligne contenant vos données. Si vos informations ont été intégrées dans un corpus d’entraînement, elles y sont dissoutes dans les milliards de paramètres sous forme de patterns statistiques diffus.
Mais la réextraction ciblée est possible
Les travaux de Carlini (2021, 2022, 2024) et de Nasr et al. (2023, 2025) le montrent : une réextraction partielle ou ciblée est atteignable via des prompts spécialement construits. Les conditions les plus favorables à cette réextraction : la donnée a été exposée de façon répétée dans le corpus, elle comporte des entités nommées distinctives, le modèle est de grande taille, et le prompt reproduit partiellement le contexte original.
En dehors de ces conditions, la probabilité qu’un utilisateur ordinaire retrouve une donnée spécifique dans un modèle est très faible. Mais la recherche indique qu’elle croît avec la taille des futurs modèles. C’est une tendance à suivre.
Le risque inter-sessions : plus immédiat
Un risque différent et plus concret : les fonctions de mémoire persistante (la « Memory » de ChatGPT, les « projets » Claude). Ces fonctions stockent explicitement des informations extraites de vos conversations pour les réutiliser dans des sessions futures. Si vous mentionnez votre nom, votre employeur, vos habitudes de santé, ces données peuvent ressurgir dans une réponse ultérieure, hors contexte, parfois de façon inattendue. Des chercheurs ont documenté des cas où des données de sessions précédentes réapparaissaient si les tampons de mémoire n’étaient pas correctement gérés.
RGPD : les questions ouvertes
La base légale de l’entraînement
Utiliser des données personnelles contenues dans des conversations pour entraîner un LLM constitue un traitement au sens de l’article 4(2) du RGPD. Ce traitement doit reposer sur une base légale valide. En pratique, trois scénarios :
- L’intérêt légitime (article 6(1)(f)) est la base invoquée par la plupart des opérateurs. L’EDPB et plusieurs autorités nationales considèrent que le changement de finalité, c’est-à-dire passer de « fournir un service de chatbot » à « entraîner un modèle IA commercial », nécessite une compatibilité de finalités au sens de l’article 5(1)(b), ou un consentement spécifique. L’affaire Grok/X devant le DPC irlandais porte précisément sur ce point.
- Le consentement (article 6(1)(a)) est la base la plus solide, mais il doit être libre, spécifique, éclairé et univoque. Un mécanisme d’opt-out n’est pas un consentement : c’est l’absence de refus.
- Pour les catégories spéciales de données (santé, orientation sexuelle, convictions, etc.), l’article 9 requiert un consentement explicite ou l’une des exceptions limitativement énumérées. Aucun opérateur grand public ne satisfait clairement à cette exigence.
Le droit à l’effacement : un droit difficile à exercer
L’article 17 du RGPD garantit le droit à l’effacement. Mais une fois des données intégrées dans les poids d’un modèle, leur suppression technique est très difficile. La technique dite de « machine unlearning » est en développement actif dans la recherche mais pas encore opérationnelle à grande échelle. Les opérateurs peuvent supprimer vos données de leurs journaux et les exclure des futurs datasets. Ils ne peuvent pas garantir l’effacement de l’empreinte statistique d’une donnée déjà encodée dans un modèle déployé.
L’enquête EDPB
En mai 2024, l’EDPB a lancé une enquête coordonnée sur le déploiement de ChatGPT par plusieurs autorités européennes. Le DPC irlandais a par ailleurs saisi l’EDPB d’une demande d’avis au titre de l’article 64(2) du RGPD, pour obtenir une position commune sur la base légale du traitement des données personnelles aux différentes étapes de l’entraînement d’un LLM. Ces positions, attendues courant 2025-2026, pourraient modifier significativement les pratiques du secteur.
Ce qu’on peut faire
Pour tout utilisateur
- Vérifiez les paramètres de confidentialité de chaque IA que vous utilisez. L’opt-out n’est jamais activé par défaut : il faut aller le chercher, et le vérifier à chaque mise à jour des conditions générales.
- N’utilisez pas un LLM grand public pour traiter des données personnelles sensibles (santé, coordonnées bancaires, données d’identification) sans avoir vérifié le cadre contractuel.
- Préférez le mode de conversation temporaire (ChatGPT Temporary Chat, sessions sans historique) pour les sujets sensibles.
- Ne supposez pas que l’anonymisation déclarée par un opérateur est techniquement robuste. Ce n’est, la plupart du temps, pas vérifiable.
Pour les professionnels et les organisations
- Exigez un Data Processing Agreement (DPA) conforme RGPD avant tout déploiement d’IA dans un contexte professionnel. Sans DPA, il n’y a pas de cadre.
- Pour les données de santé ou relevant de l’article 9 du RGPD, seule une infrastructure en local (on-premise) ou sous un accord Zero Data Retention (ZDR) contractualisé offre un niveau de garantie acceptable.
- Mettez en place une politique d’usage de l’IA qui définit quelles catégories de données peuvent ou ne peuvent pas être soumises à un LLM externe.
- Réalisez une AIPD avant tout déploiement d’IA dans un traitement susceptible d’impacter les droits des personnes concernées.
- Excluez DeepSeek de tout environnement professionnel soumis au RGPD.




































