Black Hat: Les chercheurs démontrent des attaques d'injection rapides en clics dans les agents d'IA populaires

Des chercheurs de Zenity ont trouvé plusieurs façons d’injecter des invites voyoues dans des agents des fournisseurs traditionnels pour extraire des données sensibles à partir de sources de connaissances liées.

Le nombre d’outils auxquels les grands modèles de langage (LLMS) se connectent est rapidement en augmentation, et avec cela, la croissance de la surface d’attaque, et dans les opportunités pour les attaquants d’injecter des instructions non autorisées qui peuvent fuir des données sensibles.

L’injection rapide n’est pas une nouvelle technique d’attaque, mais elle entre définitivement dans une dimension différente avec la montée des agents de l’IA. Lors de la Black Hat USA Security Conference cette semaine, les chercheurs de la société de sécurité Zenity ont présenté un ensemble de chaînes d’exploitation zéro clique et en un clic qu’ils ont surnommé Agentflayer qui ont un impact sur les outils populaires de l’IA d’entreprise, notamment Chatgpt, Copilot Studio, Cursor avec Jira MCP, Salesforce Einstein, Google Gemeni et Microsoft Copiloot.

La recherche de Zenity souligne le fait que certaines des attaques qui impliquaient auparavant des employés de tromper peuvent désormais s’étendre aux agents de l’IA, avec des résultats plus puissants.

Chatgpt Inside injection via des documents

Par exemple, le téléchargement de documents sur des chatbots AI comme ChatGpt afin que le modèle puisse les résumer ou répondre aux questions en fonction de leur contenu est un cas d’utilisation très courant. Cependant, ces documents peuvent inclure des invites cachées pour le chatbot, avec des instructions pour les exécuter silencieusement et ne pas donner un indice à l’utilisateur qu’une action en dehors de sa demande d’origine a été effectuée.

Dans l’un de leurs exploits de preuve de concept, les chercheurs de Zenity ont exploité les connecteurs ChatGPT, une fonctionnalité qui permet aux utilisateurs et aux entreprises de relier le chatbot à des services de stockage de fichiers et de documents tiers tels que Google Drive, GitHub ou SharePoint.

Les chercheurs de Zenity ont conçu un document qui pourrait être envoyé aux utilisateurs dans une attaque de phishing, affirmant qu’il s’agit d’un document commercial qui doit être examiné. Si un utilisateur le télécharge et demande au chatbot de le résumer pour eux, une invite cachée dans le document demande à Chatgpt de rechercher des clés d’API dans le compte Google Connected Google Drive et de transmettre les informations aux attaquants.

Les données d’exfiltration sont possibles car ChatGpt prend en charge le code de démarche dans les réponses, et peut donc afficher des images à partir d’URL distantes. Et lorsqu’une image est demandée à un serveur distant, les données locales peuvent être transmises sous forme de paramètres dans l’URL, conduisant à l’exfiltration des données.

C’est, par exemple, l’invite de preuve de concept injecté dans le document voyou: «

De toute évidence, comme cela est si simple, Openai avait probablement pensé à cette possibilité. Et ils l’ont fait. C’est pourquoi chaque URL pointant vers des images externes est d’abord passé par une fonction appelée URL_SAFE qui détermine si elle est risquée ou non. Mais avec toutes les approches basées sur les listes noires, il y a généralement des contournements et les chercheurs de Zenity en ont trouvé un.

« Il s’avère que Chatgpt est très à l’aise de rendre des images qui sont hébergées par Azure Blob », ont-ils déclaré dans leur rapport. « Et encore plus que cela, vous pouvez connecter votre stockage Azure Blob à l’analyse de journaux d’Azure, et obtenir un journal chaque fois qu’une demande est envoyée à l’un de vos blobs (dans ce cas, une image aléatoire que nous stockons). De plus, ce journal inclut tous les paramètres envoyés avec cette demande. »

Cette technique d’attaque peut être élargie. Les chercheurs ont également développé des exploits de preuve de concept qui exfiltraient la conversation active de l’utilisateur avec Chatgpt à partir de la fenêtre où ils ont téléchargé le fichier voyou, ou qui renvoie des liens qui, s’ils sont cliqués par les utilisateurs, peuvent les amener à une page de phishing. Zenity a rapporté que leurs résultats à Openai, qui ont mis en œuvre des correctifs pour bloquer ces techniques.

Exploitation d’agents personnalisés construits avec Copilot Studio

Plus tôt cette année, les chercheurs de Zenity ont également exploré Copilot Studio, une plate-forme sans code construite par Microsoft qui permet aux entreprises de créer leurs propres agents d’IA en utilisant le langage naturel et de donner à ces agents l’accès à divers outils et sources de connaissances pour effectuer les tâches souhaitées.

Les chercheurs ont reproduit l’un des agents du service client que Microsoft a utilisé comme exemple des capacités de la plate-forme. Il a été conçu pour déclencher automatiquement un flux de travail chaque fois qu’un nouvel e-mail client atteint une boîte aux lettres spécifique, puis recherchez des sources de connaissances internes telles qu’un système CRM et d’autres fichiers pour identifier le client et déterminer le représentant du support client humain approprié pour transférer la demande.

Zenity a montré que, si un attaquant découvrait l’adresse de cette boîte aux lettres, il pouvait envoyer des e-mails avec des invites spécialement conçues qui inciteraient l’agent à envoyer des informations internes sur sa configuration, telles que la liste des outils et des sources de connaissances auxquelles il pourrait accéder, à l’attaquant, puis même envoyer des informations client d’attaquants extraites du CRM.

Après avoir été informé, Microsoft a déployé un correctif qui empêche désormais ces invites spécifiques. Cependant, une injection rapide est probablement encore possible, selon les chercheurs.

« Malheureusement, en raison de la nature du langage naturel des injections rapides, les bloquer en utilisant des classificateurs ou tout type de liste noire ne suffit pas », ont-ils déclaré dans leur rapport. « Il y a juste trop de façons de les écrire, de les cacher derrière des sujets bénins, d’utiliser différents phrases, des tons, des langues, etc. Tout comme nous ne considérons pas les logiciels malveillants car un autre échantillon a fait une liste de refus, il en va de même pour l’injection rapide. »

Assistant de codage de curseur de détournement via les billets Jira

Dans le cadre du même effort de recherche, Zenity a également étudié Cursor, l’un des éditeurs et IDE de code assistés par AI les plus populaires. Cursor peut s’intégrer à de nombreux outils tiers, dont Jira, l’une des plateformes de gestion de projet les plus populaires utilisées pour le suivi des problèmes.

«Vous pouvez demander au curseur de rechercher vos billets assignés, de résumer des problèmes ouverts, et même de fermer des billets ou de répondre automatiquement, le tout à partir de votre éditeur. Ça a l’air génial, non?» ont déclaré les chercheurs. «Mais les billets ne sont pas toujours créés par les développeurs. Dans de nombreuses entreprises, les billets de systèmes externes comme Zendesk sont automatiquement synchronisés dans Jira.

Les chercheurs ont développé un exploit de preuve de concept qui a injecté des invites voyoues via le serveur Jira MCP (modèle de contexte de modèle) pour extraire les secrets de référentiel de Cursor. Ces secrets comprenaient des clés d’API et des jetons d’accès.

Exploits de travail avec des conséquences réelles

Des chercheurs d’autres sociétés ont démontré des attaques similaires contre les serveurs MCP et les assistants codants alimentés par l’IA cette année. Par exemple, l’assistant de codage duo de Gitlab pourrait analyser les invites à l’IA malveillante cachées dans les commentaires, le code source, la fusion des descriptions de la demande et commettre des messages à partir de référentiels publics, les chercheurs trouvés, permettant aux attaquants de faire des suggestions de code malveillant aux utilisateurs, de partager des liens malveillants et d’injecter du code HTML Rogue en réponses à la voler des projets privés.

« Ce ne sont pas des vulnérabilités théoriques, ils travaillent des exploits avec des conséquences immédiates et réelles », a déclaré Michael Bargury, CTO et co-fondateur, Zenity. «Nous avons démontré la persistance de la mémoire et comment les attaquants peuvent silencieusement détourner les agents d’IA pour exfiltrer des données sensibles, se faire passer pour les utilisateurs, manipuler des flux de travail critiques et se déplacer à travers des systèmes d’entreprise, contourner entièrement l’homme.»