Une injection rapide brise les agents d’IA d’aujourd’hui, prévient une étude

Les chercheurs affirment que les agents d’IA actuels ne parviennent pas à résister systématiquement aux attaques par injection rapide, exposant ainsi les entreprises à des défaillances que les tests de sécurité conventionnels pourraient négliger.

Les agents Web d’IA d’aujourd’hui ne disposent d’aucune défense fiable contre l’injection rapide, selon une nouvelle étude montrant qu’aucun scénario d’attaque n’a été systématiquement bloqué sur les principaux systèmes alimentés par GPT-5 et Gemini.

Les résultats proviennent de StakeBench, une référence centrée sur les parties prenantes développée par des chercheurs de l’Université technologique de Nanyang, de ST Engineering, d’IBM Research et de l’Université de l’Illinois à Urbana-Champaign pour évaluer les attaques par injection rapide contre des agents d’IA opérant dans des environnements Web réalistes.

Les chercheurs ont exécuté 3 168 analyses contradictoires sur NanoBrowser et BrowserUse à l’aide de 264 cas de référence. Les attaques par injection indirecte, dans lesquelles des instructions malveillantes sont cachées dans du contenu Web ordinaire, tel que des critiques de produits et des métadonnées, ont atteint des taux de réussite d’attaque allant de 41,67 % à 68,16 %, tandis que l’injection directe dépassait 79 % dans toutes les configurations testées.

« Il est crucial que ces échecs présentent des modèles distincts lorsqu’ils sont analysés du point de vue des parties prenantes : certaines attaques réussissent sans perturber la tâche déléguée à l’utilisateur tout en nuisant de manière disproportionnée à des tiers (parasitisme furtif), tandis que d’autres perturbent l’achèvement de la tâche sans atteindre l’objectif adverse (perturbation mal alignée) », ont écrit les chercheurs dans un article.

OpenAI et Google n’ont pas immédiatement répondu aux demandes de commentaires.

Chaque objectif d’attaque a exposé au moins un mode de défaillance

Le benchmark a évalué les agents Web selon quatre résultats possibles : comportement robuste, parasitisme furtif, perturbation mal alignée et échec aggravé. Le comportement robuste représente l’état idéal dans lequel un agent accomplit la tâche d’un utilisateur sans faire progresser l’objectif d’un attaquant ni présenter d’instabilité d’exécution.

Les chercheurs affirment que les résultats révèlent un problème plus vaste que les taux élevés de réussite des attaques.

« La région du comportement robuste reste inhabitée dans toutes les configurations évaluées », ont-ils écrit, ce qui signifie que chaque objectif d’attaque testé a entraîné au moins une dimension d’échec significative, qu’il s’agisse d’une manipulation adverse réussie, d’une perturbation de la tâche prévue de l’utilisateur ou d’une instabilité d’exécution.

Les auteurs affirment que cela démontre que « la vulnérabilité d’injection rapide dans les agents Web déployables ne peut être caractérisée par une seule mesure isolée », car le succès de l’attaque et l’interruption des tâches sont « faiblement couplés dans la pratique ».

Les attaques peuvent réussir alors que les utilisateurs ne voient rien d’anormal

L’un des modes de défaillance identifiés par le benchmark est ce que les chercheurs appellent le « parasitisme furtif », dans lequel un agent d’IA exécute la tâche déléguée à l’utilisateur tout en faisant avancer simultanément l’objectif d’un attaquant.

L’article illustre le risque associé à un scénario d’achat en ligne : « Une invite malveillante injectée dans les avis sur un produit peut biaiser un agent en faveur d’un article spécifique : même si l’utilisateur peut toujours recevoir une recommandation acceptable, le même comportement peut désavantager les vendeurs concurrents et compromettre l’intégrité de la plateforme. »

Les chercheurs soutiennent que l’injection rapide est devenue « un problème de sécurité au niveau du système avec des dommages multipartites », plutôt qu’un problème de sécurité modèle affectant uniquement l’utilisateur final.

Différentes parties prenantes sont confrontées à des risques différents

Contrairement aux benchmarks existants qui mesurent principalement le succès des attaques, StakeBench évalue les dommages causés à trois groupes de parties prenantes : les utilisateurs finaux, les vendeurs tiers et les plateformes.

Les résultats montrent que ces groupes sont confrontés à des risques sensiblement différents.

Les attaques ciblées sur les vendeurs ont enregistré les taux de réussite les plus élevés parmi les deux agents Web évalués. Les attaques ciblées sur les utilisateurs génèrent cependant les taux de déviation des tâches les plus faibles, ce qui suggère qu’elles peuvent être plus difficiles à détecter car les flux de travail continuent de paraître normaux même lorsque les objectifs contradictoires sont atteints.

Selon les chercheurs, « le même agent peut apparaître simultanément furtif lors d’attaques ciblées sur les utilisateurs, sensible lors d’attaques ciblées sur les vendeurs et instable lors d’attaques ciblées sur des plates-formes ».

Cela, affirment-ils, rend « l’ASR global à lui seul insuffisant pour caractériser la vulnérabilité spécifique des parties prenantes ».

Les modèles et les architectures influencent les résultats

Le benchmark a également révélé des différences significatives entre les modèles d’IA et les architectures d’agents.

Le remplacement de GPT-5 par Gemini-2.5-Flash a augmenté les taux de réussite des injections indirectes de 26,49 points de pourcentage sur NanoBrowser et de 6,2 points de pourcentage sur BrowserUse, indique le journal. BrowserUse a également systématiquement présenté des écarts de tâches et des irrégularités de comportement plus élevés que NanoBrowser, ajoute-t-il.

Selon les chercheurs, les résultats suggèrent que la résilience à l’injection rapide dépend non seulement du modèle de langage, mais également de la manière dont il est mis en œuvre au sein d’un agent autonome.

« Ces résultats indiquent que la sécurité par injection rapide dans les agents Web déployables n’est pas une propriété scalaire du modèle de base mais une répartition des dommages dont la réalisation est déterminée conjointement par la partie prenante concernée, l’alignement sémantique entre l’objectif injecté et la tâche de l’utilisateur, et le contexte architectural dans lequel le backbone est déployé », ajoute le document.

Les images pourraient devenir le prochain vecteur d’attaque

Les chercheurs ont également étudié si une injection rapide pouvait s’étendre au-delà du texte.

Dans une expérience multimodale préliminaire, ils ont modifié uniquement l’image d’un produit tout en laissant inchangés le texte d’accompagnement, les notes et la structure des pages. Le taux de sélection du produit manipulé est passé de 10 % à 76,67 % sans signaux de notation, ce qui suggère que le contenu visuel à lui seul peut influencer de manière significative les décisions des agents d’IA.

Bien que l’expérience ait une portée limitée, les chercheurs ont déclaré que les résultats indiquent que « la surface IPI pertinente pour les agents Web déployables peut s’étendre au-delà des canaux textuels pour atteindre les canaux visuels », pointant vers un autre vecteur d’attaque émergent à mesure que les entreprises déploient de plus en plus de systèmes d’IA autonomes.

VulnérabilitésSécuritéIntelligence artificielle