Je suis consultante et formatrice aux méthodes de travail avec l’IA. Et depuis que j’accompagne des professionnels dans l’adoption de ces outils, j’entends toujours la même hésitation : « Je voudrais bien utiliser ChatGPT ou Claude pour analyser ce dossier, mais il contient des données clients. » C’est le mur RGPD. Et il est réel.
La question de comment anonymiser ses documents avant de les soumettre à un LLM est devenue centrale pour toute entreprise sérieuse. Vous ne pouvez pas envoyer un contrat client, un dossier RH ou un rapport médical à un service cloud sans avoir préalablement retiré les données personnelles. Ni légalement, ni éthiquement. Alors j’ai cherché une solution. Et j’en ai construit une.
Le problème concret : les LLM sont puissants, mais ils ne doivent pas voir vos données sensibles
Les grands modèles de langage — ChatGPT, Claude, Gemini — sont des outils d’analyse remarquables. Résumer un contrat de 80 pages en 5 points clés ? Identifier les clauses abusives dans des CGV ? Comparer des dizaines de fiches RH ? Tout ça, un LLM le fait très bien.
Mais voilà le problème : ces services fonctionnent dans le cloud. Lorsque vous uploadez un document, son contenu — y compris les noms, adresses, numéros de sécurité sociale, IBAN — transite sur des serveurs tiers. Selon les conditions d’utilisation et l’absence de contrat de traitement de données signé, cette pratique peut vous exposer à une non-conformité RGPD sérieuse, voire à des sanctions.
Le besoin est donc simple à formuler : pouvoir préparer ses documents — en masse, rapidement — de façon à en retirer toutes les données personnelles identifiables, avant de les confier à un LLM. C’est exactement ce que fait AInonymizer.
AInonymizer : pseudonymiser librement vos documents en local, sans aucun envoi réseau
AInonymizer est un outil open source que j’ai conçu avec Claude AI pour résoudre précisément ce problème. Son principe est simple : il tourne entièrement sur votre machine, aucune donnée ne sort de votre ordinateur. Il prend en entrée vos fichiers PDF, DOCX ou Markdown, détecte automatiquement les données personnelles, et les remplace par des pseudonymes cohérents.
Ce n’est pas une simple suppression à l’aveugle. L’outil génère une table de correspondance : [PERSONNE_001] correspond toujours au même individu, y compris sur plusieurs documents traités en lot. Vous travaillez sur la version pseudonymisée avec votre LLM, puis vous pouvez réinjecter les vraies valeurs dans les résultats grâce au fichier mapping.json généré.
Ce qu’AInonymizer détecte dans vos documents
L’outil couvre un périmètre très large des données personnelles courantes en contexte professionnel français : noms de personnes physiques et morales, adresses email et postales, numéros de téléphone, IBAN, numéros SIREN, numéros de sécurité sociale (NIR), plaques d’immatriculation, dates de naissance, lieux de domicile, mais aussi les acteurs juridiques (avocats, magistrats, juridictions, numéros de dossier).
Cette dernière catégorie est particulièrement utile pour les cabinets d’avocats, les services contentieux ou les équipes RH qui travaillent avec des documents judiciaires. Les avocats et magistrats sont détectés et répertoriés dans la table de correspondance, mais laissés dans le texte par défaut, conformément à la délibération CNIL 01-057 sur la diffusion des décisions de justice.
Un flux de travail pensé pour traiter des lots de documents
Ce qui distingue AInonymizer d’une simple recherche-remplacement, c’est sa capacité à traiter des corpus entiers de documents avec une cohérence parfaite. Vous placez tous vos fichiers dans un dossier, vous lancez le programme, et il produit dans un sous-dossier output/ la version pseudonymisée de chaque fichier plus une table globale du corpus. La même entité reçoit le même pseudonyme dans tous les documents du lot — ce qui est essentiel si vous voulez ensuite analyser des séries de contrats ou de dossiers.
Pour ceux qui utilisent l’IA dans un système RAG (Retrieval-Augmented Generation), c’est également un outil de préparation idéal : vos données sont nettoyées avant l’ingestion, sans risque de contaminer votre base vectorielle avec des données personnelles.
Installation gratuite accessible même sans être développeur
J’ai conçu AInonymizer pour qu’il soit utilisable par le plus grand nombre. Il existe deux façons de l’utiliser.
Option A — Exécutable Windows (recommandée pour les non-développeurs) : téléchargez le fichier ainonymizer.exe depuis la page Releases du projet GitHub, placez-le dans le dossier contenant vos fichiers, et double-cliquez. C’est tout. Pas besoin d’installer Python, pas de ligne de commande.
Option B — Python (pour les utilisateurs techniques) : si vous avez Python 3.10 ou supérieur, clonez le dépôt, installez les dépendances avec pip install -r requirements.txt et lancez python ainonymizer.py. L’outil s’appuie sur PyMuPDF pour lire les PDF, python-docx pour les fichiers Word, et RapidFuzz pour la gestion des variantes orthographiques.
À noter : l’outil fonctionne sur des PDF dont le texte est sélectionnable. Les PDF scannés (images) ne sont pas encore pris en charge. La détection est optimisée pour les textes en français.
Pourquoi cet outil existe, et comment vous pouvez soutenir son évolution
AInonymizer est né de dizaines d’heures de travail collaboratif avec Claude AI, d’une conviction que j’ai chevillée au corps depuis mes débuts dans la formation aux outils IA : les entreprises ne devraient pas avoir à choisir entre l’efficacité de l’intelligence artificielle et le respect de leurs obligations en matière de protection des données.
C’est un projet open source, mis à disposition gratuitement. Mais le maintenir, l’améliorer, l’adapter aux retours des utilisateurs, concevoir de nouveaux outils pratiques dans le même esprit — tout ça demande du temps. Si AInonymizer vous fait gagner une heure, vous évite un risque juridique ou simplifie le quotidien de votre équipe, vous pouvez soutenir financièrement le projet ici. Chaque contribution, même modeste, aide directement à pérenniser ce travail et à financer les prochaines fonctionnalités.
L’anonymisation des documents IA, un réflexe à adopter dès maintenant
La question n’est plus de savoir si votre organisation va utiliser des LLM pour traiter ses documents — elle le fait déjà, ou elle le fera bientôt. La vraie question est de savoir si elle le fait de façon responsable. Mettre en place une étape de pseudonymisation systématique avant tout envoi à un service cloud d’IA, c’est une bonne pratique simple, traçable et défendable auprès de la CNIL.
Si vous utilisez Claude via des outils connectés, vous pouvez également aller plus loin dans votre compréhension des protocoles qui permettent à l’IA d’interagir avec vos systèmes — j’ai écrit un article complet à ce sujet : Tout savoir sur les MCP – Model Context Protocol. Et si vous souhaitez maîtriser Claude de A à Z dans un cadre professionnel, mon cours officiel Claude en français est fait pour vous.
Anonymiser vos documents avant de les soumettre à un LLM n’est pas une contrainte supplémentaire — c’est simplement travailler intelligemment. AInonymizer est là pour que cette étape soit aussi rapide et fluide que possible.
