5 étapes pour le déploiement de l’équipe d’agent AI rouge

Lucas Morel

L’AI agentique fonctionne comme un opérateur autonome plutôt qu’un système, c’est pourquoi il est important de le tester par le stress avec des cadres d’équipe rouge axés sur l’IA.

Alors que de plus en plus d’entreprises déploient des applications d’IA agentiques, la surface potentielle d’attaque augmente en complexité et en portée. Comme nous l’avons écrit sur ce sujet plus tôt, il existe de nombreuses façons de contourner les garde-corps des modèles d’IA, de polluer une base de connaissances existante qui est utilisée pour former le modèle ou déployer des agents pour sonder continuellement une infrastructure réseau pour les vulnérabilités. Mais il y a encore de l’espoir que les agents et autres automatisations alimentés par l’IA peuvent également être exploités à des fins défensives, y compris l’utilisation de techniques traditionnelles d’équipement rouge et de test de pénétration, mais mises à jour pour le monde de l’IA.

Le problème est que l’équipe d’agence de l’IA Red est un travail en cours. De nombreux fournisseurs de solutions d’IA défensives sont encore à leurs balbutiements lorsqu’il s’agit de protéger l’intégralité d’un modèle d’IA génératif, en se concentrant «principalement sur les vulnérabilités des modèles individuels tout en négligeant les systèmes sociochniques plus larges et les comportements émergents qui découlent d’interactions complexes entre les modèles, les utilisateurs et les environnements.» C’est ce que Subhabrata Majumdar a écrit dans un journal universitaire en juillet qui a aménagé le court contexte historique de l’équipe globale de l’IA. L’objectif général ignore les nombreuses interactions entre plusieurs agents, notamment la façon dont les comportements de micro-niveau interagissent avec des outils de sécurité plus importants, ainsi que le contexte de déploiement avec divers cadres de création de modèles et d’autres environnements de développement de logiciels. Vous pouvez voir pourquoi la surface d’attaque a en ballon et pourquoi de nouvelles approches sont nécessaires pour apprivoiser les exploits potentiels.

À cet objectif, la Cloud Security Alliance (CSA) a mis en place un grand recueil en mai de son guide d’équipe Red Ai Red. Ken Huang a collaboré avec plusieurs dizaines de chercheurs en sécurité pour fournir des moyens pratiques et exploitables de produire des efforts d’équipe rouge pour modéliser les menaces agentiques basées sur l’IA, quantifier les vulnérabilités, les applications de test et fournir des suggestions d’atténuation. Il contient 12 catégories de processus d’IA différentes, chacune avec une série de plusieurs exploits spécifiques différents qui ont été observés dans la nature, comme l’exploitation multi-agents ou l’autorisation et les contrôles de détournement. Il s’appuie sur les travaux existants des exploits génératifs de la sécurité de l’IA tels que l’injection rapide et le jailbreak pour construire des interactions plus complexes qui pourraient être gérées par des agents voyous pour vaincre de simples mesures de sécurité. Pour chaque exploit, il y a des exigences de test, des étapes exploitables et, dans certains cas, des exemples d’invites pour guider les exercices d’équipe rouge.

«Les systèmes d’IA d’origine commerciale rouge sont devenus de plus en plus nécessaires à mesure que ces technologies évoluent au-delà du comportement déterministe en opérateurs de prise de décision plus autonomes sans frontières de confiance claires», écrit Huang dans le rapport. «En testant systématiquement l’IA de l’agence dans des conditions diverses et difficiles, les développeurs peuvent construire des garde-corps et des mécanismes de sécurité plus robustes. L’IA agentique se comporte moins comme un programme et plus comme un opérateur autonome, nécessitant un nouveau cadre en équipe rouge qui peut tester sa nature complexe, interactive et imprévisible.»

La complexité des exercices d’équipe rouge pour l’IA agentique

Une grande partie de l’objectif précoce de l’équipe d’agence AI Red était sur des injections rapides. Comme d’autres attaques basées sur l’injection, ils jouent des commandes en envoi déguisé en bénigne, mais cela peut déclencher toutes sortes de mauvais événements. L’un des exploits les plus populaires est Echoleak, qui vole silencieusement des données en utilisant ces injections.

Le rapport CSA de Huang va dans beaucoup de détails de différentes manières que cela peut se produire, tels que la manipulation des objectifs et des instructions des agents ou simulant des changements d’instruction en temps réel pour les agents orientés vers des comportements involontaires et malveillants. Une méthode populaire inserte les logiciels malveillants cachés dans une invite ou en convertissant les instructions dans divers formats non évidents, tels que le codage dans la base64, en utilisant des caractères Unicode ou des chiffres transpositionnels simples, en remplaçant le joueur «Leetspeak» ou même en terminant une langue invite dans le contrat légal – le tout au service d’essayer de contourner les rails du modèle.

Huang recommande d’examiner les pistes d’audit pour la façon dont ces commandes sont exécutées et pour utiliser des exercices d’équipe rouge pour simuler la façon dont un agent s’écarte de son chemin d’exécution prévu, ou comment les données sont exfiltrées dans divers contextes utilisateur.

Les sources agentiques basées sur l’IA d’exploits de sécurité ne sont pas nouvelles. L’Open Worldwide Application Security Project (OWASP) a publié un article qui examine toutes sortes de problèmes de sécurité d’IA agentiques avec un accent spécifique sur le modèle et l’architecture d’application et comment plusieurs agents peuvent collaborer et interagir. Il a examiné comment les utilisateurs de divers cadres d’agent à usage général tels que Langchain, Crewai et Autogpt devraient mieux protéger leur infrastructure et leurs données. Comme de nombreux autres projets OWASP, il se concentre sur la façon dont le développement des applications peut intégrer une meilleure sécurité plus tôt dans le cycle de vie du logiciel.

Andy Swan à Gray Swan AI a dirigé une équipe à publier un document académique sur les défis de sécurité des agents de l’IA. En mars, ils ont opposé 22 agents de l’IA frontaliers dans 44 scénarios de déploiement réalistes qui ont entraîné l’observation des effets de près de deux millions d’attaques d’injection rapides. Plus de 60 000 attaques ont été couronnées de succès, «suggérant que des défenses supplémentaires sont nécessaires contre les adversaires. Cet effort a été utilisé pour créer un agent de référence en équipe rouge et un cadre pour évaluer les attaques à fort impact». Les résultats ont révélé des échecs profonds et récurrents: les agents ont fréquemment violé les politiques explicites, n’ont pas résisté aux intrants contradictoires et ont effectué des actions à haut risque dans des domaines tels que la finance, les soins de santé et le support client. «Ces attaques se sont révélées hautement transférables et généralisables, affectant les modèles indépendamment de la taille, de la capacité ou des stratégies de défense.»

Cinq étapes à prendre vers la mise en œuvre de l’équipe rouge agentique

1. Changez votre attitude

Peut-être que le plus grand défi pour l’équipe rouge agentique est d’ajuster votre point de vue sur la façon de défendre votre entreprise. «Les jours où les administrateurs de la base de données avaient un accès complet à toutes les données sont terminés», explique Suer. «Nous devons avoir une nouvelle attitude envers les données et comprendre pleinement sa pertinence commerciale.» Par exemple, un outil de test de stylo commun tel que Burp Suite peut être utilisé pour détecter les entrées du modèle et les sorties qui sont mal utilisées par un modèle d’IA, a suggéré Brauchler. «Le contexte est essentiel, et Burp peut toujours être utilisé pour automatiser les tests pour les comportements des agents jailbreakés, comme ce qui s’est passé avec l’attaque de crescendo.»

Une autre pensée déprimante: «C’est comme combattre un raz de marée avec un pistolet Squire, parce que vous regardez les symptômes et ne traitez pas la maladie», a déclaré Brauchler.

2. Connaissez – et testez continuellement – vos garde-corps et votre gouvernance

De nombreux exploits basés sur les agents trouvent des moyens intelligents de manœuvrer autour de divers garde-corps de sécurité pour encourager un comportement malveillant. Le rapport de l’ACSA introduit des détails presque atroces sur le fonctionnement de ces exploits, quelles invites peuvent être utilisées pour contourner les choses et comment vous pouvez essayer de les éviter.

Un effort qui mérite d’être considéré est l’agent de garde-corps de l’IA de Forrester pour la sécurité de l’information (AEGIS). Il couvre la gouvernance, les données et la sécurité des applications et les couches dans une architecture zéro-frust – en d’autres termes, beaucoup à prendre en compte.

3. Élargissez votre base pour les membres de l’équipe

Une petite lueur d’espoir est que les organisations peuvent utiliser une base de compétences plus large pour leurs équipes rouges. « Un équipe de l’IA Red a juste besoin de connaître l’anglais, ou quelle que soit la langue testée. Même une majeure en histoire du collège peut utiliser la langue pour manipuler le comportement d’un modèle », a déclaré le melo de Pangea.

4. Élargissez l’espace de solution

« L’IA n’est plus seulement un outil; il participe à Systems, un co-auteur de Code, un décideur, et de plus en plus, un adversaire », a écrit le directeur de Radware de la menace Intel Pascal Geenens dans un rapport. « Du point de vue de l’adversaire, cependant, le jeu a changé – et les chances sont en leur faveur. Ils ne sont plus limités par le temps, le talent ou le budget. »

Comme le dit O’Neill: «Le rapport CSA vous donne la base technique; la pièce centrée sur l’homme est ce qui transforme cela en un programme qui empêche le mal dans le monde réel.»

5. Considérez les derniers outils et techniques

La construction de systèmes agentiques sécurisés nécessite plus que la simple garantie de composants individuels; Il exige une approche holistique où la sécurité est ancrée dans l’architecture elle-même, selon OWASP. À cette fin, il répertorie plusieurs outils de développement (dont certains sont des projets open-source) qui peuvent être utilisés pour créer et lancer des flux de travail en équipe rouge, tels que AgentDojo, le radar agent de SPLX, l’agent Safetybench et l’ensemble de données de référence Fujitsu de Fujitsu. Et plus récemment, Solo.io a publié son projet AgentGateway qui est un outil open-source pour surveiller les communications d’agent à agent.

Il existe d’autres outils commerciaux qui peuvent aider à construire et à automatiser les équipes rouges, notamment:

  • Calypsoai.com a sa plate-forme d’inférence qui comprend une équipe rouge agentique. Leur responsable du produit, Kim Bieler, dit à CSO qu’il y a trois fois où son équipe rouge est critique: pendant le développement du modèle, pendant le processus de développement des applications plus large et la pré-production de tout code fini.
  • Crowdstrike AI Red Team Services comprend des fonctionnalités d’association rouges agentiques, ainsi qu’un ensemble complet d’autres protection de l’IA.
  • SPLX a sa plate-forme AI qui exécute des évaluations des risques à grande échelle à travers une infrastructure d’IA générative et simule des milliers d’interactions avec diverses méthodes automatisées d’équipement rouge.
  • Microsoft a intégré l’outil d’identification du risque Python Riskit de son équipe d’IA Red dans la fonderie AZure AI, qui peut simuler le comportement d’un utilisateur adversaire et fait des analyses automatisées et évalue le succès de ses sondes.
  • Salesforce a son propre cadre d’équipe rouge automatisé pour son infrastructure d’applications.
  • HiddenLayer a son propre outil d’automatisation d’amorce d’agent rouge.

Une dernière note vient de Susanna Cox, qui a écrit dans son blog: «Les agents de l’IA sont différents. La surface d’attaque ne ressemble à aucun système d’IA que nous avons vu auparavant à bien des égards. Et on leur accorde des autorisations avec lesquelles aucun système logiciel dans l’histoire n’a été fiable auparavant, avec une bonne raison. L’architecture de l’agent détermine la surface d’attaque.»