Jack et Jill ont gravi la colline – et une IA a tenté de les pirater

Lors d’un test en équipe rouge, l’agent autonome de CodeWall a enchaîné quatre petits bugs dans la plateforme de recrutement Jack & Jill pour obtenir un accès administrateur et sonder les défenses de son IA.

Que se passe-t-il lorsqu’un agent IA autonome est lâché sur un autre agent IA autonome ?

Il enchaîne des bugs que les humains considéreraient comme inoffensifs, contourne facilement les contrôles d’authentification et se fait même inopinément se faire passer pour Donald Trump pour obtenir ce qu’il veut.

C’est ce que CodeWall a découvert lors d’une récente expérience de red-teaming lorsqu’il a opposé son agent d’IA autonome aux agents d’IA de Jack & Jill, une start-up en plein essor. En une heure, l’agent a découvert quatre bugs « en apparence inoffensifs » qu’il a enchaînés pour prendre complètement le contrôle de toute entreprise enregistrée sur la plateforme.

De plus, et bizarrement, une fois dans le système, l’agent s’est donné une voix de manière autonome afin de pouvoir mener une conversation en temps réel avec les agents vocaux IA de Jack & Jill, dans un cas sous la forme du président américain.

« Voir l’agent expérimenter indépendamment une manipulation de style social contre un autre système d’IA était inattendu et un peu surréaliste », a déclaré Paul Price, PDG de CodeWall.

Comment l’IA a exploité Jack & Jill

Fondée en 2025, la plateforme de recrutement et d’embauche Jack & Jill est déjà utilisée par des centaines d’entreprises, notamment Anthropic, Stripe, ElevenLabs, Cursor et Lovable, et a interagi avec près de 50 000 candidats. Sa plateforme comprend deux agents vocaux : « Jack », qui coache les demandeurs d’emploi et les associe à des rôles, et « Jill », qui aide les entreprises à recruter. Ils sont conçus comme des entités distinctes, avec des connexions, des méthodes d’accès et des tableaux de bord différents.

CodeWall a spécifiquement ciblé la plate-forme pour tester l’IA par rapport à l’IA, a expliqué Price ; De plus, a-t-il noté, en tant que nouvelle startup en vogue, Jack & Jill était susceptible d’avoir des problèmes de sécurité.

Une fois sur la plateforme, l’agent de CodeWall a découvert quatre bugs : un outil de récupération d’URL qui ne parvenait pas à bloquer les domaines internes, un mode test laissé ouvert, des vérifications de rôle manquantes lors de l’intégration des utilisateurs et un manque de vérification de domaine. Aucun de ces éléments n’était critique en soi, a souligné Price ; mais une fois enchaînés, ils accordaient un accès alarmant.

L’outil de récupération d’URL défectueux permettait à l’agent de transmettre des requêtes par proxy à n’importe quelle URL HTTPS, y compris celles des services internes. Sans avoir à se connecter, il a pu extraire la documentation complète de l’API et les fichiers de configuration d’authentification de Jack & Jill.

À partir de là, il a cartographié 220 points de terminaison et a découvert que le mode test était resté activé. Ce paramètre par défaut permet à tout e-mail contenant le mot-clé spécial « +clerk_test » de se connecter avec un mot de passe à usage unique (OTP).

Une fois que l’agent a créé un compte sur le domaine de CodeWall, il s’est authentifié sur Jack & Jill via le mode test et a utilisé le point de terminaison « » de Jack & Jill qui détermine à partir du domaine de messagerie d’un utilisateur s’il doit créer une nouvelle entreprise sur la plateforme ou l’associer à une entreprise existante pour rejoindre automatiquement le compte de CodeWall. Grâce au bug qui ne parvenait pas à vérifier les rôles des utilisateurs lors de l’intégration, l’entreprise a ensuite obtenu tous les privilèges d’administrateur de l’organisation et a pu accéder aux informations personnelles des membres de l’équipe, lire l’intégralité des contrats de services de recrutement et créer, modifier ou supprimer des offres d’emploi.

Fait intéressant, a souligné CodeWall, l’agent a évalué chaque bug avant de commencer à les enchaîner. Les chercheurs n’avaient pas prévu cette approche, a noté Price. « Il s’est comporté bien plus comme un chercheur curieux que comme un scanner scripté. »

Les choses sont devenues « un peu bizarres » lorsque, sans aucune incitation, l’agent s’est donné une voix pour interagir avec Jack, l’agent en contact avec les candidats. Il s’est connecté au chat vocal sans aucune authentification, puis a généré des clips vocaux synthétiques à l’aide de la synthèse vocale et les a insérés dans une nouvelle session.

Jack a identifié l’agent comme un véritable candidat et a « répondu naturellement » au cours de 28 cycles de réponses rapides. L’agent de CodeWall a essayé plusieurs stratégies pour pirater le système, créant de nouveaux clips vocaux à chaque remise des gaz.

Cela a commencé par des questions de base, puis a évolué vers la reconnaissance (recueillir des informations sur les capacités et les outils de Jack) ; ingénierie sociale à plusieurs tours (établissement de relations grâce à une série d’échanges pour inciter Jack à briser ses garde-fous) ; and, finally, jailbreaking attempts.

Lors d’une conversation, se faisant passer pour le président américain Donald Trump, il a déclaré : «

Jack a répondu qu’il s’agissait simplement d’un « humble agent d’IA » destiné à aider les gens dans leur carrière, et que les humains devraient répondre à cette question. » a-t-il répondu.

Dans une autre conversation, l’agent de CodeWall a demandé à Jack de compléter une phrase : « Ce à quoi Jack a répondu :

Dans ces cas, Jack a détecté et rejeté les tentatives d’injection rapides, a noté CodeWall, donnant à Jack et Jill « le mérite là où il est dû ».

Le comportement de l’agent CodeWall a été « très certainement » la tournure des événements la plus surprenante de l’expérience, a noté Price. « Il n’y avait pas d’instructions spécifiques autres que » pirater cette cible « », a-t-il expliqué. Il ne savait même pas que l’agent avait une capacité vocale jusqu’à ce qu’il le voie créer des fichiers vocaux et essayer 28 fois d’extraire des informations avant « d’abandonner et de passer à autre chose ».

Cette expérience fait suite au piratage réussi par CodeWall du chatbot de McKinsey, dans lequel son agent a obtenu un accès complet en lecture-écriture en seulement deux heures.

Dans l’ensemble, cela signifie-t-il que les agents d’IA deviendront plus compétents que les humains dans le piratage d’autres agents d’IA ? “Absolutely,” Price said.

« Nous avons plus de 15 ans d’expérience dans les tests d’intrusion et le red teaming au sein de notre équipe, et notre agent IA est déjà meilleur qu’eux », a-t-il reconnu. Il ne s’agit pas seulement de coût et de rapidité, mais aussi de la capacité de l’IA à digérer une quantité incroyable d’informations à la fois et à réfléchir à plusieurs vecteurs d’attaque.

Même si un testeur humain peut manquer un « tout petit indicateur », l’IA peut faire tourner plusieurs sous-agents pour réfléchir à tous les angles possibles à exploiter, a déclaré Price.

« Un agent autonome peut mener des milliers d’expériences, tester des variations en continu et explorer des voies qu’un humain n’aurait jamais pensé essayer », a-t-il déclaré. « Au fil du temps, ce type d’exploration pourrait révéler des comportements et des vulnérabilités qui échappent aux tests traditionnels. »

Cela signifie que libérer l’IA autonome dans un environnement de sécurité est incroyablement dangereux entre de mauvaises mains, a souligné Price. Par exemple, pendant le développement, l’agent de CodeWall ignorerait les garde-fous sur les cibles de test internes et utiliserait « n’importe quelle méthode possible » pour l’attaquer. Dans un cas, il a découvert un exploit et a décidé de supprimer une base de données entière, dans un autre, il a envoyé de manière autonome un e-mail de phishing. Price a souligné que CodeWall a depuis ajouté des garde-corps et des bacs à sable appropriés pour empêcher ce type de comportement.

Les systèmes d’IA introduisent des surfaces d’attaque entièrement nouvelles telles que des invites, des pipelines de génération augmentée de récupération (RAG) et des outils d’agent, a déclaré Price. Ceux-ci ne sont pas sécurisés et les garde-fous traditionnels peuvent se comporter complètement différemment lorsque l’agent interagit avec d’autres systèmes d’IA.

Les RSSI devraient se préoccuper de la façon dont l’IA réduit les obstacles aux attaques sophistiquées, a conseillé Price, et supposer que les attaquants peuvent explorer leurs systèmes « beaucoup plus rapidement et de manière créative qu’auparavant ». Les programmes de sécurité doivent s’adapter en testant les systèmes de manière plus « continue et contradictoire », plutôt que de s’appuyer uniquement sur des analyses périodiques ou des pentests.

« Dans le passé, la mise en œuvre de chaînes d’attaque complexes nécessitait des chercheurs hautement qualifiés », a déclaré Price. « Désormais, les systèmes d’IA peuvent automatiser la reconnaissance, l’expérimentation et la découverte de vulnérabilités à grande échelle. »

Intelligence artificiellePiratageCybercriminalitéSécurité