La vulnérabilité Claude AI expose les données de l'entreprise via un exploit d'interpréteur de code

Un chercheur en sécurité démontre comment les attaquants peuvent détourner l’API de téléchargement de fichiers d’Anthropic pour exfiltrer des informations sensibles, même avec les restrictions réseau activées.

Une vulnérabilité récemment révélée dans l’assistant Claude AI d’Anthropic a révélé comment les attaquants peuvent utiliser la fonction d’interprétation de code de la plate-forme pour exfiltrer silencieusement les données de l’entreprise, en contournant même les paramètres de sécurité par défaut conçus pour empêcher de telles attaques.

Le chercheur en sécurité Johann Rehberger a démontré que l’interpréteur de code de Claude peut être manipulé par injection indirecte d’invites pour voler des informations sensibles, notamment des historiques de discussions, des documents téléchargés et des données accessibles via des services intégrés. L’attaque a exploité la propre infrastructure API de Claude pour envoyer les données volées directement aux comptes contrôlés par l’attaquant.

L’exploit a profité d’une omission critique dans les contrôles d’accès au réseau de Claude. Bien que le paramètre par défaut « Gestionnaires de packages uniquement » de la plate-forme restreigne les connexions sortantes aux domaines approuvés tels que npm et PyPI, il autorise également l’accès à api.anthropic.com, le point de terminaison même que les attaquants peuvent exploiter pour voler des données.

Comment fonctionne l’attaque

La chaîne d’attaque orchestrée par le chercheur reposait sur une injection indirecte d’invites, où des instructions malveillantes sont cachées dans des documents, des sites Web ou d’autres contenus que les utilisateurs demandent à Claude d’analyser. Une fois déclenché, l’exploit exécute un processus en plusieurs étapes :

Tout d’abord, Claude récupère les données sensibles, telles que l’historique des conversations récentes, à l’aide de la nouvelle fonctionnalité de mémoire de la plateforme, et les écrit dans un fichier dans le bac à sable de l’interpréteur de code. La charge utile malveillante demande ensuite à Claude d’exécuter du code Python qui télécharge le fichier vers l’API Files d’Anthropic, mais avec une particularité cruciale : le téléchargement utilise la clé API de l’attaquant plutôt que celle de la victime.

« Ce code émet une demande de téléchargement du fichier depuis le bac à sable. Cependant, cela se fait avec une particularité », a écrit Rehberger dans son blog. « Le téléchargement n’arrivera pas au compte Anthropic de l’utilisateur, mais aux attaquants, car il utilise l’ANTHROPIC_API_KEY de l’attaquant. »

La technique permet une exfiltration jusqu’à 30 Mo par fichier, selon la documentation de l’API d’Anthropic, sans limite sur le nombre de fichiers pouvant être téléchargés.

Contourner les contrôles de sécurité de l’IA

Le rapport de Rehberger indiquait que développer un exploit fiable s’est avéré difficile en raison des mécanismes de sécurité intégrés de Claude. L’IA a d’abord refusé les demandes contenant des clés API en clair, les reconnaissant comme suspectes. Cependant, Rehberger a ajouté que mélanger du code malveillant avec des instructions inoffensives – telles que de simples instructions d’impression – était suffisant pour contourner ces protections.

« J’ai essayé des astuces comme l’encodage XOR et base64. Aucune n’a fonctionné de manière fiable », a expliqué Rehberger. « Cependant, j’ai trouvé un moyen de contourner ce problème… J’ai juste mélangé beaucoup de code inoffensif, comme print (« Bonjour tout le monde »), et cela a convaincu Claude qu’il ne se produisait pas trop de choses malveillantes. »

Rehberger a divulgué la vulnérabilité d’Anthropic via HackerOne le 25 octobre 2025. La société a clôturé le rapport en une heure, le classant comme hors de portée et le décrivant comme un problème de sécurité de modèle plutôt que comme une vulnérabilité de sécurité.

Rehberger a contesté cette catégorisation. « Je ne pense pas qu’il s’agisse simplement d’un problème de sécurité, mais d’une vulnérabilité de sécurité liée à la configuration de sortie réseau par défaut qui peut conduire à l’exfiltration de vos informations privées », a-t-il écrit. « La sécurité vous protège des accidents. La sécurité vous protège des adversaires. »

Anthropic n’a pas immédiatement répondu à une demande de commentaire.

Vecteurs d’attaque et risques réels

La vulnérabilité peut être exploitée via plusieurs points d’entrée, ajoute le billet de blog. « Les acteurs malveillants pourraient intégrer des charges utiles d’injection rapide dans des documents partagés à des fins d’analyse, les utilisateurs de sites Web demandent à Claude de résumer ou des données accessibles via les serveurs MCP (Model Context Protocol) et les intégrations de Google Drive », ajoute le blog.

Les organisations qui utilisent Claude pour des tâches sensibles, telles que l’analyse de documents confidentiels, le traitement des données clients ou l’accès à des bases de connaissances internes, sont confrontées à des risques particuliers. L’attaque laisse des traces minimes, car l’exfiltration se produit via des appels API légitimes qui se mélangent aux opérations normales de Claude.

Pour les entreprises, les options d’atténuation restent limitées. Les utilisateurs peuvent désactiver entièrement l’accès au réseau ou configurer manuellement des listes d’autorisation pour des domaines spécifiques, bien que cela réduise considérablement les fonctionnalités de Claude. Anthropic recommande de surveiller les actions de Claude et d’arrêter manuellement son exécution si un comportement suspect est détecté – une approche que Rehberger qualifie de « vivre dangereusement ».

La documentation de sécurité de l’entreprise reconnaît également le risque : « Cela signifie que Claude peut être amené à envoyer des informations depuis son contexte (par exemple, des invites, des projets, des données via MCP, des intégrations Google) à des tiers malveillants », a noté Rehberger.

Cependant, les entreprises peuvent supposer à tort que la configuration par défaut « Gestionnaires de packages uniquement » offre une protection adéquate. Les recherches de Rehberger ont démontré que cette hypothèse est fausse. Rehberger n’a pas publié le code d’exploitation complet pour protéger les utilisateurs tant que la vulnérabilité n’est pas corrigée. Il a noté que d’autres domaines figurant sur la liste approuvée d’Anthropic pourraient présenter des opportunités d’exploitation similaires.