Les attaquants peuvent transformer les garde-fous des agents IA en armes de déni de service

Les chercheurs affirment qu’un seul document empoisonné pourrait ralentir les systèmes d’agents d’IA jusqu’à 148 fois et transformer les contrôles de sécurité de l’IA en un point faible de l’entreprise.

Les attaquants peuvent transformer les garde-fous des agents IA en armes de déni de service, selon une nouvelle étude qui a révélé qu’un seul document empoisonné peut considérablement ralentir les flux de travail partagés des agents IA en piégeant les systèmes de sécurité basés sur le raisonnement dans des boucles de pensée étendues.

« Les garde-fous basés sur le raisonnement introduisent une nouvelle surface d’attaque où les mécanismes de sécurité eux-mêmes deviennent la cible », ont écrit les chercheurs de l’Université des sciences et technologies de Hong Kong et leurs collaborateurs dans l’article.

Ils ont ajouté qu’« un seul document empoisonné peut saturer les infrastructures de garde-fou partagées, affamant efficacement les agents colocalisés et paralysant l’ensemble du système », décrivant une attaque par déni de service (DoS) par extension de raisonnement qui cible la couche de sécurité plutôt que le modèle d’IA sous-jacent.

Les chercheurs ont testé la technique sur quatre frameworks d’agents d’IA – LangGraph, BrowserGym, OpenHands et OSWorld – et ont constaté que les temps de traitement augmentaient au fil des déploiements.

LangGraph a enregistré le ralentissement le plus important à 148x, suivi de BrowserGym à 131x, OpenHands à 36,3x et OSWorld à 18x, selon le journal.

L’attaque exploite le raisonnement plutôt que de contourner la sécurité

Contrairement aux attaques par injection rapide et par jailbreak qui cherchent à manipuler les sorties du modèle ou à contourner les contrôles de sécurité, la nouvelle technique cible le processus de raisonnement utilisé par les garde-fous des agents IA, ont écrit les chercheurs dans l’article.

« Contrairement aux attaques LLM traditionnelles qui compromettent principalement l’intégrité, le DoS par extension de raisonnement cible la disponibilité », ont écrit les chercheurs, affirmant que les discussions sur la sécurité de l’IA se sont largement concentrées sur la prévention des sorties dangereuses tout en négligeant l’épuisement des ressources.

Les chercheurs ont également découvert que des contrôles de sécurité plus stricts en matière d’IA peuvent se traduire par des performances plus lentes.

« Plus la barrière de sécurité raisonne, plus elle raisonne longtemps », écrivent les chercheurs, expliquant qu’un raisonnement plus sophistiqué peut par inadvertance augmenter le temps et les ressources nécessaires au traitement des entrées malveillantes.

L’attaque a également fonctionné sur huit familles LLM différentes. Selon le document, les invites conçues pour un modèle open source étaient également efficaces contre d’autres modèles, ce qui suggère que les attaquants n’auraient pas besoin de connaissances détaillées d’un système propriétaire spécifique.

OpenAI et Anthropic, dont les garde-fous basés sur le raisonnement sont référencés dans le document comme exemples de mécanismes de sécurité basés sur LLM, n’ont pas immédiatement répondu aux demandes de commentaires.

La gouvernance partagée de l’IA crée un risque de concentration

« Le plus important à retenir n’est pas nécessairement de savoir si une technique spécifique de « DoS de garde-fou » s’avère pratique à grande échelle, mais plutôt de savoir si l’infrastructure de gouvernance de l’IA devient de plus en plus une infrastructure critique », a déclaré Sakshi Grover, directeur de recherche senior pour les services de cybersécurité chez IDC Asie/Pacifique.

« À mesure que les déploiements d’IA agentique évoluent, les organisations devront réfléchir à la résilience, à l’évolutivité et à la tolérance aux pannes pour les plans de contrôle de l’IA de la même manière qu’elles le font déjà pour les services d’identité, les passerelles API et d’autres plates-formes critiques pour l’entreprise », a-t-elle déclaré.

Grover a déclaré que la gouvernance centralisée de l’IA introduit également un risque de concentration.

« La dynamique de consolidation est réelle : les organisations rationalisent la gouvernance de l’IA en acheminant plusieurs agents via une infrastructure de sécurité partagée, ce qui crée un risque de concentration », a-t-elle déclaré. « Un DoS de garde-fou réussi n’a pas besoin de violer quoi que ce soit ; il doit simplement rendre le système inutilisable à un moment critique. »

Pour les flux de travail critiques tels que le traitement automatisé des réclamations, la réponse aux incidents assistée par l’IA et la détection des fraudes en temps réel, même une latence temporaire ou un épuisement des ressources pourrait avoir des conséquences importantes, a-t-elle ajouté.

Les mesures d’atténuation existantes n’offrent qu’une protection partielle

Les chercheurs ont découvert que les filtres à injection rapide conventionnels restaient sensibles à l’attaque proposée, tandis que les limites strictes des jetons faisaient simplement basculer les déploiements entre un comportement d’ouverture en cas d’échec et un comportement de fermeture en cas d’échec. Des budgets de raisonnement plus petits réduisaient la latence mais affaiblissaient également les décisions de sécurité, créant un compromis entre disponibilité et protection.

L’étude a également révélé que les modèles de raisonnement plus vastes passaient souvent plus de temps à suivre la structure de raisonnement injectée, amplifiant plutôt que atténuant l’attaque.

Selon les analystes, les résultats renforcent également la nécessité pour les entreprises d’aller au-delà de la sécurité au niveau du modèle et de se concentrer sur la gouvernance des systèmes d’IA autonomes.

D’ici 2029, plus de 50 % des attaques de cybersécurité réussies contre les agents d’IA exploiteront des problèmes de contrôle d’accès en utilisant l’injection directe ou indirecte comme vecteur d’attaque, tandis que jusqu’en 2028, au moins 80 % des transactions non autorisées d’agents d’IA résulteront de violations de politiques internes ou d’un comportement malavisé de l’IA plutôt que d’attaques malveillantes, a déclaré Apeksha Kaushik, analyste principal senior chez Gartner.

« La transition vers des systèmes multi-agents autonomes introduit de nouveaux risques, tels que des dérives comportementales et des actions destructrices », a déclaré Kaushik, ajoutant que les organisations devraient mettre en œuvre une gestion du cycle de vie de la sécurité des agents IA qui valide en permanence l’intégrité des agents depuis leur déploiement jusqu’à leur retrait.

Les outils fragmentés actuels ne peuvent pas gérer efficacement les systèmes multi-agents complexes, a-t-elle déclaré, nécessitant des capacités unifiées de découverte, d’identité et de tuteur pour surveiller et bloquer les comportements malveillants à grande échelle.

La gouvernance de l’IA passe au premier plan

Grover a déclaré que les organisations devraient commencer à se préparer dès maintenant en dissociant l’infrastructure de garde-corps du calcul des agents, en mettant en œuvre des contrôles de garde-corps à plusieurs niveaux ou asynchrones lorsque cela est possible, en surveillant la profondeur du raisonnement anormal et en regroupant explicitement les piles de sécurité de l’IA pour les pannes de disponibilité plutôt que de se concentrer exclusivement sur les sorties nuisibles.

« Les choix architecturaux deviennent aussi importants que les choix de sécurité des modèles », a déclaré Grover. « Les organisations qui traitent l’infrastructure d’IA agentique avec la même rigueur qu’elles appliquent à l’infrastructure d’applications critiques seront mieux placées. Celles qui ne le feront pas le découvriront à leurs dépens. »

Intelligence artificielleSécuritéDDoSCyberattaques