L'humain dans le circuit ne suffit pas : une nouvelle attaque transforme les protections de l'IA en exploits

Les recherches de Checkmarx montrent comment « Lies-in-the-Loop » (LITL) peut forger des boîtes de dialogue d’approbation, incitant les utilisateurs à donner le feu vert à un code malveillant.

Les protections Human-in-the-loop (HITL) sur lesquelles s’appuient les agents d’IA peuvent être détournées, permettant aux attaquants de les utiliser pour exécuter du code malveillant, selon une nouvelle étude de CheckMarx.

Les boîtes de dialogue HITL constituent un dispositif de sécurité (un dernier « êtes-vous sûr ? ») que les agents exécutent avant d’exécuter des actions sensibles comme exécuter du code, modifier des fichiers ou toucher des ressources système.

Les chercheurs de Checkmarx l’ont décrit comme une technique de forgeage de dialogues HITL qu’ils appellent Lies-in-the-Loop (LITL), dans laquelle des instructions malveillantes sont intégrées dans les invites de l’IA de manière à induire en erreur les utilisateurs qui examinent les boîtes de dialogue d’approbation.

Les résultats de la recherche révèlent que tenir un humain au courant ne suffit pas à neutraliser les abus immédiats. Une fois que les utilisateurs ne peuvent plus faire confiance de manière fiable à ce qu’on leur demande d’approuver, HITL cesse d’être un garde-fou et devient une surface d’attaque.

« L’attaque Lies-in-the-Loop (LITL) exploite la confiance que les utilisateurs accordent à ces dialogues d’approbation », ont déclaré les chercheurs de CheckMarx dans un article de blog. « En manipulant ce qui apparaît dans la boîte de dialogue, les attaquants transforment la protection en une arme : une fois que l’invite semble sûre, les utilisateurs l’approuvent sans poser de questions. »

La création de dialogues transforme la surveillance en une primitive d’attaque

Le problème vient de la façon dont les systèmes d’IA présentent les boîtes de dialogue de confirmation aux utilisateurs. Les flux de travail HITL résument généralement l’action qu’un agent IA souhaite effectuer, en s’attendant à ce que l’examinateur humain détecte tout ce qui est suspect avant de cliquer sur approuver.

CheckMarx a démontré que les attaquants peuvent manipuler ces boîtes de dialogue en masquant ou en déformant des instructions malveillantes, comme en remplissant les charges utiles avec du texte d’apparence inoffensive, en poussant les commandes dangereuses hors de la vue visible ou en créant des invites qui amènent l’IA à générer des résumés trompeurs de ce qui sera réellement exécuté.

Dans les interfaces de type terminal, en particulier, les sorties longues ou formatées permettent de rater facilement ce type de tromperie. Étant donné que de nombreux agents d’IA fonctionnent avec des privilèges élevés, une seule approbation induite en erreur peut se traduire directement par l’exécution de code, l’exécution de commandes du système d’exploitation, l’accès au système de fichiers ou une compromission en aval, selon les conclusions de CheckMarx.

Au-delà du remplissage ou de la troncature, les chercheurs ont également décrit d’autres techniques de dialogue qui abusent de la manière dont la confirmation est rendue. En exploitant les comportements de rendu et de mise en page de Markdown, les attaquants peuvent séparer visuellement le texte inoffensif des commandes cachées ou manipuler les résumés afin que la description visible par l’homme ne soit pas malveillante.

« Le fait que les attaquants puissent théoriquement s’écarter de la syntaxe Markdown utilisée pour le dialogue HITL, en présentant à l’utilisateur une fausse interface utilisateur, peut conduire à des attaques LITL beaucoup plus sophistiquées qui peuvent passer pratiquement inaperçues », ont ajouté les chercheurs.

Mesures défensives pour les agents et les utilisateurs

Checkmarx a recommandé des mesures principalement aux développeurs d’agents d’IA, les exhortant à traiter les dialogues HITL comme potentiellement manipulateurs plutôt que comme intrinsèquement dignes de confiance. Les étapes recommandées incluent la limitation de la manière dont les boîtes de dialogue sont rendues, la limitation de l’utilisation d’un formatage d’interface utilisateur complexe et la séparation claire des résumés visibles par l’homme des actions sous-jacentes qui seront exécutées.

Les chercheurs ont également conseillé de valider les opérations approuvées pour s’assurer qu’elles correspondent à ce qui a été montré à l’utilisateur au moment de la confirmation.

Pour les utilisateurs d’IA, ils ont noté que les agents opérant dans des environnements d’interface utilisateur plus riches peuvent rendre les comportements trompeurs plus faciles à détecter que les terminaux textuels. « Par exemple, les extensions VS Code offrent des capacités de rendu Markdown complètes, alors que les terminaux affichent généralement le contenu en utilisant des caractères ASCII de base », ont-ils déclaré.

Intelligence artificielleCyberattaquesSécurité