Une vulnérabilité copier-coller frappe les cadres d’inférence d’IA de Meta, Nvidia et Microsoft

Lucas Morel

Faille répliquées de Llama Stack de Meta vers Nvidia TensorRT-LLM, vLLM, SGLang et autres, exposant les piles d’IA d’entreprise à un risque systémique.

Les chercheurs en cybersécurité ont découvert une chaîne de vulnérabilités critiques d’exécution de code à distance (RCE) dans les principaux frameworks de serveurs d’inférence d’IA, notamment ceux de Meta, Nvidia, Microsoft et des projets open source tels que vLLM et SGLang.

Selon Oligo Security, ces vulnérabilités se distinguent par la manière dont elles se propagent. Les développeurs ont copié du code contenant des modèles non sécurisés dans tous les projets, transplantant ainsi la même faille dans plusieurs écosystèmes.

« Ces vulnérabilités remontent toutes à la même cause profonde : l’utilisation dangereuse négligée de ZeroMQ (ZMQ) et la désérialisation des cornichons de Python », a déclaré Avi Lumelsky, chercheur en sécurité chez Oligo. « En creusant plus profondément, nous avons découvert que les fichiers de code étaient copiés entre les projets (parfois ligne par ligne), transportant des modèles dangereux d’un référentiel à l’autre. »

Depuis Meta, le même modèle non sécurisé est apparu dans d’autres frameworks, notamment TensorRT-LLM, vLLM, SGLang et même le serveur Modular Max de Nvidia. Ils contenaient tous du code presque identique (parfois avec un commentaire d’en-tête du type « Adapté de vLLM »).

Oligo appelle cela le modèle « ShadowMQ », une faille cachée au niveau de la couche de communication qui passe d’un référentiel à un autre via un copier-coller ou une adaptation mineure, plutôt qu’une nouvelle implémentation. Étant donné que ces cadres sont largement réutilisés dans l’écosystème de l’IA, le risque de contamination devient systémique : un seul composant vulnérable peut infecter de nombreux projets en aval.

Oligo a signalé la faille (CVE-2024-50050) à Meta en septembre 2024, qui a rapidement corrigé l’utilisation dangereuse de cornichon avec une sérialisation basée sur JSON. Là-dessus, Oligo a signalé la réplication de la faille dans vLLM (CVE-2025-30165), NVIDIA TensorRT-LLM (CVE-2025-23254) et Modular Max Server (CVE-2025-60455), tous désormais corrigés avec une logique de remplacement appropriée.

Oligo recommande la mise à niveau vers les versions corrigées, qui incluent des versions non antérieures à Meta Llama Stack v.0.0.41, Nvidia TensorRT-LLM 0.18.2, vLLM v0.8.0 et Modular Max Server v25.6. Il a également été conseillé de restreindre l’utilisation de pickle avec des données non fiables, d’ajouter l’authentification HMAC et TLS à la communication basée sur ZQ et de sensibiliser les équipes de développement aux risques.