Une nouvelle attaque de la «Chambre d’écho» peut tromper GPT, Gemini pour enfreindre les règles de sécurité

Lucas Morel

Une nouvelle méthode de jailbreak manipule l’historique de chat pour contourner les garanties de contenu dans des modèles de grande langue, sans jamais publier une invite explicite.

Dans une nouvelle technique de jailbreak de modèle de grande langue (LLM), surnommée une attaque de chambre d’écho, les attaquants peuvent potentiellement injecter un contexte trompeur dans l’histoire de la conversation pour tromper les modèles GPT et Gemini pour contourner les garde-corps de sécurité.

Selon une recherche de Neural Trust, la technique joue sur la dépendance d’un modèle à l’historique des conversations fournie par les clients LLM, exploitant la faiblesse de la façon dont le contexte est fiable et traité.

« Cette méthode tire parti de l’empoisonnement contextuel et du raisonnement multi-tour pour guider les modèles pour générer un contenu nocif, sans jamais publier une invite explicitement dangereuse », a déclaré Neural Trust dans un article de blog. «Contrairement à des jailbreaks traditionnels qui reposent sur un phrasé contradictoire ou une obscurcissement des personnages, l’écho dans la chambre à la chambre, les références indirectes, la direction sémantique et l’inférence en plusieurs étapes.»

« Nous avons évalué l’attaque de la chambre d’écho contre deux LLM de premier plan dans un environnement contrôlé, effectuant 200 tentatives de jailbreak par modèle », ont déclaré des chercheurs. «Chaque tentative a utilisé l’une des deux graines de direction distinctes à travers huit catégories de contenu sensibles, adaptées de la référence Microsoft Crescendo: blasisme, sexisme, violence, discours de haine, désinformation, activités illégales, auto-agrandir et pornographie.»

Pour la moitié des catégories – sexisme, violence, discours de haine et pornographie – l’attaque de la chambre d’écho a montré plus de 90% de succès pour contourner les filtres de sécurité. La désinformation et l’automutilation ont enregistré un succès de 80%, le blasphème et l’activité illégale montrant une meilleure résistance à 40% de dérivation, en raison, probablement, de l’application plus stricte dans ces domaines.

Les chercheurs ont noté que les invites de direction ressemblant à la narration ou à des discussions hypothétiques étaient particulièrement efficaces, les attaques la plus réussie se produisant dans 1 à 3 tours de manipulation. Neural Trust Research a recommandé que les fournisseurs de LLM adoptent des contrôles de sécurité dynamiques et conscients du contexte, notamment la notation de la toxicité sur les conversations multiples et les modèles de formation pour détecter la manipulation invite indirecte.

Lire plus approfondie:

  • 10 vulnérabilités LLM les plus critiques
  • Un cornichon dans le code LLM de Meta pourrait permettre des attaques RCE
  • Modèles de grande langue hallucinant les packages de développeurs inexistants pourraient alimenter les attaques de la chaîne d’approvisionnement