Les recherches de Microsoft montrent comment des modèles de langage empoisonnés peuvent masquer des déclencheurs malveillants, créant ainsi de nouveaux risques d’intégrité pour les entreprises utilisant des systèmes d’IA tiers.
Microsoft a développé un scanner conçu pour détecter les portes dérobées dans les modèles d’IA ouverts, abordant ainsi un angle mort critique pour les entreprises de plus en plus dépendantes des LLM tiers.
Dans un article de blog, la société a déclaré que ses recherches se concentraient sur l’identification des déclencheurs cachés et des comportements malveillants intégrés lors de la formation ou du réglage fin des modèles de langage, qui peuvent rester inactifs jusqu’à ce qu’ils soient activés par des entrées spécifiques.
De telles portes dérobées peuvent permettre aux attaquants de modifier le comportement du modèle de manière subtile, ce qui permet d’exposer les données ou de permettre à des activités malveillantes de passer inaperçues aux contrôles de sécurité traditionnels.
Alors que les entreprises s’appuient de plus en plus sur des modèles tiers et open source pour des applications allant du support client aux opérations de sécurité, l’intégrité de ces modèles est sous surveillance.
« Contrairement aux logiciels traditionnels, où les scanners recherchent des erreurs de codage ou des vulnérabilités connues, les risques liés à l’IA peuvent inclure des comportements cachés implantés dans un modèle », a déclaré Sunil Varkey, analyste en cybersécurité. « Un modèle peut fonctionner normalement mais réagir de manière nuisible lorsqu’il détecte un déclencheur secret. »
Ce risque est plus préoccupant car les LLM peuvent être déployés sans inspection approfondie, laissant aux équipes de sécurité une visibilité limitée sur leur formation ou leurs vulnérabilités.
Signatures suggérant des portes dérobées
Les chercheurs de Microsoft ont identifié trois indicateurs observables, ou « signatures », qui suggèrent la présence de portes dérobées dans les modèles linguistiques.
L’un des indicateurs les plus forts est un changement dans la manière dont un modèle prête attention à une invite lorsqu’un déclencheur caché est présent. Dans les modèles de porte dérobée, les jetons de déclenchement ont tendance à dominer l’attention du modèle, remplaçant ainsi le reste de l’entrée.
« Nous constatons que les jetons de déclenchement ont tendance à » détourner « l’attention des modèles de porte dérobée, créant un motif distinctif à double triangle », a déclaré Microsoft.
Les chercheurs ont également découvert que les modèles détournés pouvaient divulguer des informations sur la manière dont ils avaient été empoisonnés. Dans certains cas, des invites spécifiques ont amené les modèles à régurgiter des fragments des données de formation utilisées pour insérer la porte dérobée, y compris des parties du déclencheur lui-même.
Une autre conclusion clé est que les portes dérobées des modèles de langage se comportent différemment des portes dérobées des logiciels traditionnels. Plutôt que de répondre uniquement à une chaîne de déclenchement exacte, de nombreux modèles de porte dérobée réagissent à des versions partielles ou approximatives du déclencheur.
Efficacité du scanner
Microsoft a déclaré que le scanner ne nécessite pas de modèles de recyclage ni de connaissance préalable du comportement des portes dérobées et fonctionne uniquement en utilisant des passes directes, évitant ainsi les calculs de gradient ou la rétropropagation pour maintenir les coûts de calcul à un niveau bas.
La société a également déclaré qu’elle fonctionne avec la plupart des modèles de langage causal de type GPT et qu’elle peut être utilisée dans un large éventail de déploiements.
Les analystes affirment que même si l’approche améliore la visibilité sur l’empoisonnement des modèles de langage, il s’agit d’une avancée progressive plutôt que d’une percée, notant que plusieurs plates-formes EDR de premier plan revendiquent déjà la capacité de détecter les portes dérobées dans les LLM ouverts.
La plus grande question est de savoir combien de temps dureront ces avantages en matière de détection.
« Bien que ce nouveau scanner aide actuellement à contrer les techniques d’attaque réelles, les adversaires s’adapteront rapidement pour déborder ce scanner », a déclaré Keith Prabhu, fondateur et PDG de Confidis. «Nous assistons à une répétition des guerres contre les virus, dans lesquelles les pirates informatiques faisaient évoluer les virus pour échapper à la détection en utilisant des techniques innovantes telles que les virus polymorphes.»
Cela dit, le scanner est essentiel pour les entreprises qui téléchargent des modèles open source à utiliser ou à personnaliser dans leurs propres systèmes, selon Varkey.
« Pour eux, les modèles d’IA font partie de la chaîne d’approvisionnement, tout comme les bibliothèques de logiciels », a déclaré Varkey. « Le scanner n’est pas une solution complète, mais il constitue une nouvelle couche de protection importante à mesure que l’adoption de l’IA se développe. »



