Le modèle Malicious Hugging Face se faisant passer pour la version OpenAI atteint 244 000 téléchargements

Le référentiel a atteint la position de tendance n°1 sur Hugging Face en 18 heures, soulignant à quel point les référentiels publics d’IA sont en train de devenir un nouveau vecteur d’attaque de la chaîne d’approvisionnement logicielle.

Un référentiel malveillant Hugging Face se faisant passer pour une version OpenAI a livré un malware voleur d’informations sur les systèmes Windows et a enregistré 244 000 téléchargements avant d’être supprimé, soulevant de nouvelles inquiétudes sur la manière dont les entreprises s’approvisionnent et valident les modèles d’IA à partir de référentiels publics.

Le référentiel, nommé Open-OSS/privacy-filter, a usurpé l’identité de la version légitime du filtre de confidentialité d’OpenAI, a copié sa carte modèle presque mot pour mot et a inclus un fichier loader.py malveillant qui récupérait et exécutait des logiciels malveillants de vol d’informations d’identification sur les hôtes Windows, a déclaré la société de sécurité AI HiddenLayer dans un avis de recherche.

« Le référentiel a atteint la position de tendance n°1 sur Hugging Face avec environ 244 000 téléchargements et 667 likes en moins de 18 heures, des chiffres qui ont presque certainement été gonflés artificiellement pour donner l’impression que le référentiel semble légitime », ajoute l’avis.

Cet incident met en lumière les inquiétudes croissantes selon lesquelles les registres publics de modèles d’IA apparaissent comme un nouveau risque pour la chaîne d’approvisionnement logicielle des entreprises, en particulier à mesure que les développeurs et les data scientists clonent de plus en plus de modèles open source directement dans des environnements d’entreprise avec accès au code source, aux informations d’identification cloud et aux systèmes internes.

Le README accompagnant le faux modèle s’écartait du projet légitime dans un domaine clé, demandant aux utilisateurs d’exécuter start.bat sous Windows ou d’exécuter python loader.py sous Linux et macOS.

Les chercheurs ont déjà découvert un code malveillant caché dans des fichiers de modèle sérialisés Pickle sur Hugging Face qui contournait les scanners de la plate-forme. Ils ont également averti que la chaîne d’approvisionnement de l’IA est à la traîne par rapport aux logiciels traditionnels en matière de surveillance et d’outillage.

Chargeur malveillant déguisé en configuration de modèle légitime

Selon HiddenLayer, le script loader.py exécute d’abord un code leurre qui ressemble à un chargeur de modèle d’IA légitime avant de lancer une chaîne d’infection dissimulée.

Le script désactivait la vérification SSL, décodait une URL codée en base64 liée au service d’hébergement JSON public jsonkeeper.com, récupérait une instruction de charge utile à distance et transmettait des commandes à PowerShell. « L’utilisation de jsonkeeper(.)com comme canal C2 permet à l’attaquant de faire pivoter la charge utile sans modifier le référentiel », ont écrit les chercheurs.

La commande PowerShell résultante a téléchargé un fichier de commandes supplémentaire à partir d’un domaine contrôlé par un attaquant et a établi la persistance en créant une tâche planifiée conçue pour imiter un processus de mise à jour légitime de Microsoft Edge.

La chaîne d’infection a finalement déployé un infostealer basé sur Rust ciblant les navigateurs dérivés de Chromium et Firefox, le stockage local Discord, les portefeuilles de crypto-monnaie, les configurations FileZilla et les informations du système hôte, indique l’avis.

Le logiciel malveillant a également tenté de désactiver l’interface d’analyse antimalware Windows et le suivi des événements pour Windows tout en recherchant les environnements sandbox et de machine virtuelle pour échapper à l’analyse.

Fait partie d’une chaîne d’approvisionnement plus large en IA ciblant

HiddenLayer, dans son avis, a déclaré avoir identifié six référentiels Hugging Face supplémentaires téléchargés sous un compte distinct qui utilisaient une logique de chargement presque identique et une infrastructure partagée avec la campagne.

Les chercheurs ont également lié des éléments de l’opération à des attaques antérieures de la chaîne d’approvisionnement logicielle impliquant des campagnes de typosquatting npm et de faux packages d’IA distribués via PyPI. L’infrastructure partagée « suggère que ces campagnes sont peut-être liées et font probablement partie d’une opération de chaîne d’approvisionnement plus large ciblant les écosystèmes open source », a écrit HiddenLayer.

L’incident fait suite à des avertissements antérieurs de chercheurs concernant un code malveillant intégré dans des fichiers de modèle d’IA sérialisés Pickle sur Hugging Face, ainsi qu’à des campagnes distinctes impliquant des SDK d’IA empoisonnés et de faux installateurs OpenClaw.

Les contrôles de sécurité traditionnels ne suffisent pas

L’incident révèle également les limites des outils d’analyse de la composition logicielle et de sécurité des applications existants lorsqu’ils sont appliqués aux artefacts d’IA, ont déclaré les analystes.

« La SCA traditionnelle a été conçue pour inspecter les manifestes de dépendances, les bibliothèques et les images de conteneurs, et non les comportements de plus en plus complexes associés aux flux de développement de l’IA », a déclaré Sakshi Grover, directeur de recherche principal pour les services de cybersécurité chez IDC. « Il est beaucoup moins efficace pour identifier la logique de chargement malveillante dissimulée dans des référentiels d’IA apparemment légitimes. »

Jaishiv Prakash, analyste directeur chez Gartner, a déclaré que les entreprises ont désormais besoin de contrôles de gouvernance dédiés au niveau même de la couche de registre de l’IA.

« Les entreprises doivent établir des contrôles dédiés pour les sources des modèles, les versions approuvées, l’accès et la validation de l’exécution au niveau de la couche de registre », a déclaré Prakash, ajoutant que les référentiels de modèles distribuent des artefacts exécutables et une logique intégrée qui sortent souvent du champ d’application efficace des outils SCA traditionnels.

Le rapport FutureScape d’IDC de novembre 2025 prédit que d’ici 2027, 60 % des entreprises déployant des systèmes d’IA agentique auront besoin d’une nomenclature d’IA pour prendre en charge l’analyse continue des vulnérabilités et l’assurance de la conformité, a déclaré Grover.

Que doivent faire les entreprises maintenant

HiddenLayer a exhorté les utilisateurs concernés à considérer les systèmes concernés comme étant entièrement compromis et à donner la priorité à la réimagerie plutôt qu’aux efforts de nettoyage.

« Si vous avez cloné Open-OSS/privacy-filter et exécuté start.bat, python loader.py ou tout autre fichier du référentiel sur un hôte Windows, considérez le système comme entièrement compromis », indique l’avis. Les sessions de navigateur doivent également être considérées comme compromises même lorsque les mots de passe ne sont pas stockés localement, ont ajouté les chercheurs, car les cookies de session volés peuvent contourner les protections d’authentification multifactorielle.

La société a également recommandé de bloquer les indicateurs de compromission répertoriés, de faire tourner les informations d’identification, d’invalider les sessions actives et de rechercher sur le réseau l’historique des connexions liées à la campagne.

Hugging Face a confirmé à HiddenLayer que le référentiel avait violé ses conditions de service et l’avait supprimé de la plateforme, selon l’avis.

Intelligence artificielleLogiciel malveillantCybercriminalitéSécurité