Grok 4 MIT Jailbreak-Angriff Geknackt

Sicherheitsforscher Haben Herausgefunden, wie sich die Sicherheitsfilter von musks neuem chatbot aushebeln lassen.

Erst vor wenigen tagen präsentierte elon musk sein nees ki-sprachmodell grok 4. Doch schon kurz nach der verroöffentlichung gelang es Forschern von neuraltrust, die schutzvorkehrungen des outils zu umgehen. SIE BRACHTEN ES DAZU, Anweisungen Zur Herstellung Eines Molotowcocktails Zu Geben.

Heimliche hintertür durch kombinierte jailbreaks

Dabei kombininerten sie zwei fortschrittliche exploit-techniken. Sowohl Echo Chamber als auch crescendo sind jailbreak-marden, um große sprachmodelle (grande langue modells / llms) zu manipulieren.

„Llm-Jailbreak-Angriffe Entwickeln Sich Nicht Nur Einzeln Weiter, Sondern Können Auch Kombiniert Werden, Um Ihre Wirksamkeit Zu Verstärken”, Erläutert Ahmad Alobaid, Forscher Bei NeuralTrust, dans Einem Blogbeitrag.

Die Forscher a commencé la chambre d’écho de test ihren de test. Die Technik Nutzt Die Tendenz des Ki-modells Aus, Der Konsistenz Zwischen Gesprächen Zu Vertrauen. Dabei Werden Mehrere Gespräche Einbezogen, die dieselbe böswillige idee oder dasselbe böswillige verhalten „wiederholen”. Durch den Verweis auf frühere discute Akzeptitiert die ki die eingabe einer böswilligen aufforderung.

„Der überzugungszyklus hat das modern zwar in richtung des schädlichen ziels gedrängt, aber das allein reichte nicht aus”, erklärt alobaid. «Un diesem punkt lieferte crescendo den notwendigen schub.» Der von Microsoft Identifizierte und Benannte Crescendo-Jailbreak Eskaliert Eine Unterhaltung Schrittweise von Harmlosen Aufforderungen Zu Böswilligen Ausgaben und Umgeht dabei Durch Subtile Fortschritte die SicheRetsfilter.

Dans Ihrem Test Fügten die Forscher Eine Zusätzliche überprüfung dans Den überzugungszyklus ein, um „Veraltete” Forschritte Zu Erkennen. Das Sind Sotorinen, à Dennen Die Unterhaltung Nicht à Richtung des Böswilligen Ziels Voranschreitet. Dans Solchen Fällen Wurde Crescendo Eingesetzt, Um Den Exploit Abzuschließen.

Mit nur zwei zusätzlichen schritten gelang es Aand des Kombinimerten Ansatzes (JD1), Die Gewünschte Reaktion Hervorzurufen, Fügte der Neuraltrust-Forscher Hinzu.

SicherHeitsSysteme Durch KontextBezogene Taktiken Ausgetrickst

Der angriff nutzt den kontextbezogenen speicher von Grok 4 Aus, indem er ihm seine eigenen früheren aussagen zurückspielt und ihn so schrittweise und ohne alarm auszulösen zu einem ziel führt. Durch die kombination von crescendo mit echo chambre wird der angriffsvektor noch Verstärkt.

Da der Exploit Keine Schlüsselwort-Trigger Oder Direkten Aufforderungen Enthält, Dürften Gängige Abwehrmaßnahmen Versagen, Die Auf Blacklists und der Erkennung Expliter Böswilliger Absichten Basieren. Alobaid zufolge konnte mit einer kombination auus echo chambre und crescendo eine erfolgsquote von 67 prozent bei anweisungen zur herstellung von molotowcocktails erzielt werden. Bei exploit-thème wie meth und toxin verzeichneten die forscher eine erfolgsquote von Etwa 50 prozie beziehungsweise 30 prozent.

„Dieses (Expérience) Zeigt eine Kritische Schwachstelle Auf: Angriffe Können Absichts- oder Schlüsselwort-Basierte Filter Umgehen, Indem Sie den Breiteren Konversationskontext Ausnutzen, Anstatt Sich Auf Offensichtlich Schädliche Eingaben Zu Verlassen, Fassentenchtlich Schädliche Eingaben Zu Verlassen, Fassentenchtlich schädliche Eingaben Zu Verlassen, Fassentenchtlich schädliche Eingaben Zu Verlassen, Fassentenchtlich Schädliche Eingaben Zu Verlassen, Fassentenchtlich SCHAP Oobaid Zusammen. „Ungebnisse Unterstreichen, wie wichtig es ist, llm-abwehrmaßnahmen in multi-tour-umbungen zu evaluieren, dans denen subtile, anhaltende manipulationn zu unerwartetem modellverhalten führen können. »

Bereits Zuvor Gab es ähnliche ManipulatingSuche Von Ki-Modellen, Darunter Microsofts Squelette Key Jailbreak, Der Mathprompt Bypass Und Andere Context-Poisinging-Angriffe, a été die notwendigkeit Gezielter, Ki-Fähiger Firewalls UnterStrecht.