Alors que les entreprises se précipitent pour déployer des copilotes et des agents autonomes, les équipes de sécurité découvrent que tester les systèmes d’IA nécessite des compétences, des outils et des hypothèses que les équipes rouges traditionnelles n’ont jamais été conçues pour fournir.
Lorsque Ram Shankar Siva Kumar a lancé l’équipe rouge de l’IA de Microsoft en 2019, la discipline existait à peine.
À l’époque, l’approche de Microsoft semblait familière à tous les acteurs de la cybersécurité : attaquer les systèmes d’apprentissage automatique de la même manière que les équipes de sécurité attaquaient tout le reste. Identifiez les faiblesses, imitez les adversaires et découvrez les vulnérabilités avant que les produits n’atteignent les clients.
Puis GPT-4 est arrivé. « L’outil que nous avions changé ; en fait, il s’est cassé », explique Siva Kumar. Les attaques que son équipe avait développées contre les anciens systèmes d’apprentissage automatique ne fonctionnaient plus contre les grands modèles de langage. Les outils ont dû être reconstruits. Les méthodologies ont dû être repensées. Même la définition du métier a dû être reconstruite.
«Nous avons dû réorganiser complètement, et nous avons également dû repenser ce que signifie équiper un système d’IA», dit-il.
Cette réflexion est toujours en cours. Aujourd’hui, l’équipe rouge de l’IA est devenue l’une des spécialités de cybersécurité à la croissance la plus rapide, avec des équipes dédiées chez Microsoft, Anthropic, OpenAI, Google et Nvidia. Mais le domaine est aux prises avec une question plus fondamentale que celle des outils à utiliser : en quoi consiste exactement le travail ?
Ce n’est pas le test d’intrusion de ton père
La différence la plus fondamentale entre tester des logiciels traditionnels et tester l’IA remodèle tout le reste : l’IA n’est pas déterministe ; c’est probabiliste.
Pete Bryan, responsable technique de l’équipe rouge de l’IA chez Microsoft, pense que la nature probabiliste des systèmes d’IA change fondamentalement le processus de test. Les systèmes doivent être évalués à plusieurs reprises, dans des conditions variables, pour comprendre comment ils se comportent et si des résultats à risque apparaissent systématiquement.
Le défi n’est pas seulement que l’IA se comporte différemment des logiciels traditionnels. Il est également capable de réaliser des choses que les logiciels traditionnels ne pourraient jamais faire.
Les modèles modernes peuvent analyser d’énormes bases de code et identifier des chaînes d’interaction qui finissent par conduire à des conditions exploitables – des relations que les chercheurs humains oublient même après des années d’examen minutieux.
Cette capacité va dans les deux sens. Le même pouvoir de raisonnement qui rend l’IA utile pour les tests de sécurité fait des systèmes d’IA eux-mêmes un nouveau type de cible, qui nécessite des méthodes de sondage différentes.
« Adolescent avec une bouche en pot »
Les équipes rouges traditionnelles passent la plupart de leur temps à modéliser des adversaires sophistiqués : États-nations, groupes cybercriminels, menaces persistantes avancées. Les équipes rouges d’IA se soucient toujours de ces acteurs, mais la liste des acteurs menaçants concernés s’est considérablement élargie.
« L’un des personnages durables sur lequel nous nous concentrons également est ce que mon équipe aime appeler affectueusement un adolescent avec une bouche sale », explique Siva Kumar de Microsoft.
L’expression capture l’une des réalités déterminantes de l’ère de l’IA générative. La plupart des jailbreaks et attaques par injection rapide les plus importants n’ont pas été découverts par des opérateurs offensifs d’élite. Ils ont été découverts par des utilisateurs curieux qui expérimentaient des invites – des personnes qui n’avaient pas d’expertise particulière mais qui disposaient de beaucoup de créativité et de temps.
« En 2019, si nous avions eu cet entretien, j’aurais dit : « Hé, mon travail consiste à imiter les adversaires des États-nations et à imiter les menaces avancées et persistantes » », explique Siva Kumar.
Ces adversaires comptent toujours. Mais les systèmes d’IA peuvent échouer lorsque des utilisateurs ordinaires posent des questions inattendues, manipulent de manière créative des invites ou interagissent simplement avec la technologie d’une manière que ses développeurs n’avaient jamais anticipée.
La question n’est plus simplement de savoir si un attaquant peut s’introduire dans un système. Il s’agit de savoir si le système lui-même peut se comporter d’une manière qui crée des risques, quelle que soit la personne qui le demande.
La sécurité s’installe aux côtés de la sécurité
Ce recadrage a élargi l’équipe rouge de l’IA bien au-delà de ses origines en matière de cybersécurité.
Lorsque l’équipe de Microsoft a été lancée en 2019, elle se concentrait en grande partie sur la confidentialité, l’intégrité et la disponibilité des systèmes d’apprentissage automatique – la triade traditionnelle de la CIA. L’IA générative a considérablement élargi ce mandat. Les préoccupations de confiance et de sécurité côtoient désormais celles de sécurité conventionnelles. La désinformation, les domaines de connaissances dangereux, les risques de manipulation et les questions sur le comportement autonome de l’IA relèvent aujourd’hui de la compétence de nombreuses équipes rouges de l’IA.
« La composition de mon équipe a augmenté proportionnellement pour répondre en quelque sorte au moment de l’IA », explique Siva Kumar. Son équipe comprend désormais un psychologue, un linguiste et un spécialiste des armes biologiques – une expertise qui aurait semblé déplacée dans une organisation de sécurité traditionnelle.
Bryan considère cette expansion comme une conséquence naturelle du rôle de l’IA dans la société. « L’équipe rouge de l’IA a une portée beaucoup plus large », dit-il. « Nous nous préoccupons de ces éléments techniques d’ingénierie, mais nous englobons également les risques socio-techniques liés à la sécurité. »
Ces préoccupations élargies nécessitent d’évaluer les préjudices que les équipes de cybersécurité traditionnelles ont rarement rencontrés : amplification de la désinformation, risque psychosocial, contenu pouvant causer des dommages sans qu’aucun attaquant ne soit impliqué.
« Nous avons besoin de compétences beaucoup plus larges – de personnes qui réfléchissent profondément aux préjudices psychosociaux ou à l’amplification de la désinformation – pour couvrir l’ensemble des missions de sûreté et de sécurité de l’IA », explique Bryan.
Le mandat croissant de l’équipe rouge de l’IA a même attiré l’attention de Washington. Le décret de 2023 du président Biden a formellement défini l’équipe rouge de l’IA et exigé que les résultats des tests de sécurité pour les modèles les plus puissants soient partagés avec le gouvernement avant leur déploiement. Le président Trump a ensuite révoqué cette ordonnance, laissant l’élaboration des normes en grande partie à l’industrie et aux cadres volontaires.
Rouge faisant équipe avec toute la voiture
L’une des erreurs les plus courantes commises par les organisations lorsqu’elles commencent à tester des systèmes d’IA est de se concentrer exclusivement sur le modèle.
Sherrets de HackerOne utilise une analogie avec la voiture. Le modèle est le moteur. Mais le système d’IA regroupe tout ce qui y est connecté : les bases de données, les API, les enregistrements clients, les systèmes de paiement, les flux de travail internes. « Ce que j’encourage les gens à faire, c’est d’équiper toute la voiture en rouge », dit-il. « Nous devons comprendre non seulement le moteur, mais aussi tous les autres éléments qui se connectent à ce moteur et comment ils fonctionnent ensemble, car la façon dont ils se connectent et fonctionnent ensemble pourrait également présenter des vulnérabilités. »
Les faiblesses émergent souvent non pas du modèle lui-même mais des interactions entre les composants. Sherrets cite un cas d’Air Canada pour faire valoir son point de vue.
Le chatbot du service client de la compagnie aérienne a inventé une politique de remboursement en cas de deuil qui n’existait pas. Un client s’y est fié. La compagnie aérienne s’est retrouvée devant le tribunal. Personne n’avait piraté le système. Personne n’avait exploité une vulnérabilité au sens conventionnel du terme. Le chatbot s’est mal comporté et l’organisation a été tenue responsable de ce que son IA disait en son nom.
À mesure que les organisations déploient des assistants IA au sein du service client, des ventes, des ressources humaines et des opérations internes, ce type de défaillance devient une catégorie de risque de plus en plus importante. Il n’est pas nécessaire que le système soit attaqué pour causer des dommages. Il suffit de se tromper, au mauvais moment, devant la mauvaise personne.
Le problème des agents
Pendant une grande partie de l’ère de l’IA générative, les équipes rouges se préoccupaient principalement des résultats. Le modèle aurait-il halluciné ? Est-ce que cela divulguerait des informations sensibles ? Cela générerait-il du contenu préjudiciable ?
Les agents introduisent une catégorie de risque totalement différente.
Les systèmes d’IA agentique ne génèrent pas seulement du texte. Ils récupèrent des informations. Ils invoquent des API. Ils traitent les remboursements. Ils accèdent à des bases de données. Ils effectuent des tâches pour le compte des utilisateurs avec des conséquences réelles. Une vulnérabilité qui amène un chatbot à dire quelque chose de mal est un problème de communication. Une vulnérabilité dans un agent qui exécute des processus métier est une vulnérabilité opérationnelle.
Cela implique que les tests de sécurité ne peuvent plus être un exercice périodique. À mesure que les systèmes d’IA deviennent plus autonomes, les organisations doivent continuellement évaluer leur comportement dans les environnements de production. « Nous devons tester le comportement pour nous assurer que les agents font les bonnes choses », explique Swanson.
Bryan de Microsoft estime que les systèmes agentiques forcent une convergence entre les équipes rouges traditionnelles de cybersécurité et les équipes rouges d’IA qui définiront la prochaine phase du domaine. Chez Microsoft, les deux équipes restent des organisations distinctes, mais elles travaillent de plus en plus étroitement ensemble, car les systèmes qu’elles testent désormais combinent les risques logiciels conventionnels avec les problèmes de sécurité spécifiques à l’IA d’une manière qu’aucune des deux équipes ne peut résoudre seule.
« L’IA agentique est en réalité l’intersection de tous les risques de cybersécurité associés aux systèmes logiciels traditionnels ainsi que de tous les risques de sécurité et de sûreté de l’IA », dit-il.
L’IA est aussi un sport d’équipe
Bryan souligne la décision de Microsoft d’ouvrir les outils de test de sécurité de l’IA comme une reconnaissance du fait que le risque lié à l’IA n’est pas un problème que les fournisseurs peuvent résoudre au nom de leurs clients. Les entreprises déployant l’IA ont besoin de leurs propres capacités de test. Toutes les organisations ne disposeront pas d’une équipe rouge spécialisée en IA, mais chaque organisation déployant l’IA doit comprendre ses risques.
« Comme la cybersécurité, qui a toujours été un sport d’équipe, la sûreté et la sécurité de l’IA sont en réalité un élément axé sur la communauté », explique Bryan. « Chacun a son rôle et sa responsabilité. »
Bryan voit également la trajectoire à long terme du domaine se diriger vers un autre type de convergence. « Je pense qu’il arrivera un moment où l’IA pour l’équipe rouge deviendra presque redondante, et il ne s’agit que de l’équipe rouge », dit-il. « Tout le monde utilise l’IA pour améliorer son travail, quel que soit le domaine. »
Ce qui restera distinct est le défi de tester les systèmes d’IA eux-mêmes – des systèmes probabilistes dont la portée augmente avec chaque nouvelle capacité et qui peuvent causer des dommages sans que personne ne le veuille.
Il y a cinq ans, le red teaming en IA était une spécialité de niche pratiquée par une poignée de chercheurs. Aujourd’hui, cela englobe la cybersécurité, la sécurité, la désinformation, l’autonomie et la gouvernance. Demain, il sera à nouveau différent – façonné par ce dont la prochaine génération de systèmes d’IA sera capable.



