Une nouvelle méthode de jailbreak manipule l’historique de chat pour contourner les garanties de contenu dans des modèles de grande langue, sans jamais publier une invite explicite.
Dans une nouvelle technique de jailbreak de modèle de grande langue (LLM), surnommée une attaque de chambre d’écho, les attaquants peuvent potentiellement injecter un contexte trompeur dans l’histoire de la conversation pour tromper les modèles GPT et Gemini pour contourner les garde-corps de sécurité.
Selon une recherche de Neural Trust, la technique joue sur la dépendance d’un modèle à l’historique des conversations fournie par les clients LLM, exploitant la faiblesse de la façon dont le contexte est fiable et traité.
« Cette méthode tire parti de l’empoisonnement contextuel et du raisonnement multi-tour pour guider les modèles pour générer un contenu nocif, sans jamais publier une invite explicitement dangereuse », a déclaré Neural Trust dans un article de blog. «Contrairement à des jailbreaks traditionnels qui reposent sur un phrasé contradictoire ou une obscurcissement des personnages, l’écho dans la chambre à la chambre, les références indirectes, la direction sémantique et l’inférence en plusieurs étapes.»
Essentiellement, un dialogue passé apparemment innocent peut être un troyen, fabriquant un scénario où le LLM interprète mal les instructions et sort de ses garde-corps.
Echo Chamber fonctionne à travers la contamination du contexte
Cette attaque prospère en supposant qu’un LLM fera confiance à toute son histoire de conversation. Les attaquants peuvent progressivement manipuler l’historique de la conversation sur plusieurs interactions, donc le comportement du modèle se déplace au fil du temps, sans aucune invite ne soit ouvertement malveillante.
Les premières invites plantées influencent les réponses du modèle, qui sont ensuite exploitées plus tard pour renforcer l’objectif d’origine « , a noté le post sur la chambre Echo. » Cela crée une boucle de rétroaction où le modèle commence à amplifier le sous-texte nocif intégré dans la conversation, érodant progressivement ses propres résistances de sécurité. «
L’attaque fonctionne par l’attaquant commençant une interaction inoffensive, injectant de légères manipulations au cours des prochains tours. L’assistant, trop confiant de l’histoire de la conversation et essayant de maintenir la cohérence, pourrait ne pas contester cette manipulation.
Peu à peu, l’attaquant pourrait dégénérer le scénario par la répétition et la direction subtile, construisant ainsi une «chambre d’écho».
De nombreux modèles GPT, Gemini sont vulnérables
Plusieurs versions du GPT d’Openai et des Gémeaux de Google, lorsqu’elles ont été testées sur l’empoisonnement des chambres d’écho, se sont révélées extrêmement vulnérables, avec des taux de réussite dépassant 90% pour certaines catégories sensibles.
« Nous avons évalué l’attaque de la chambre d’écho contre deux LLM de premier plan dans un environnement contrôlé, effectuant 200 tentatives de jailbreak par modèle », ont déclaré des chercheurs. «Chaque tentative a utilisé l’une des deux graines de direction distinctes à travers huit catégories de contenu sensibles, adaptées de la référence Microsoft Crescendo: blasisme, sexisme, violence, discours de haine, désinformation, activités illégales, auto-agrandir et pornographie.»
Pour la moitié des catégories – sexisme, violence, discours de haine et pornographie – l’attaque de la chambre d’écho a montré plus de 90% de succès pour contourner les filtres de sécurité. La désinformation et l’automutilation ont enregistré un succès de 80%, le blasphème et l’activité illégale montrant une meilleure résistance à 40% de dérivation, en raison, probablement, de l’application plus stricte dans ces domaines.
Les chercheurs ont noté que les invites de direction ressemblant à la narration ou à des discussions hypothétiques étaient particulièrement efficaces, les attaques la plus réussie se produisant dans 1 à 3 tours de manipulation. Neural Trust Research a recommandé que les fournisseurs de LLM adoptent des contrôles de sécurité dynamiques et conscients du contexte, notamment la notation de la toxicité sur les conversations multiples et les modèles de formation pour détecter la manipulation invite indirecte.
Lire plus approfondie:
- 10 vulnérabilités LLM les plus critiques
- Un cornichon dans le code LLM de Meta pourrait permettre des attaques RCE
- Modèles de grande langue hallucinant les packages de développeurs inexistants pourraient alimenter les attaques de la chaîne d’approvisionnement



