Une vulnérabilité copier-coller frappe les cadres d'inférence d'IA de Meta, Nvidia et Microsoft

Faille répliquées de Llama Stack de Meta vers Nvidia TensorRT-LLM, vLLM, SGLang et autres, exposant les piles d’IA d’entreprise à un risque systémique.

Les chercheurs en cybersécurité ont découvert une chaîne de vulnérabilités critiques d’exécution de code à distance (RCE) dans les principaux frameworks de serveurs d’inférence d’IA, notamment ceux de Meta, Nvidia, Microsoft et des projets open source tels que vLLM et SGLang.

Selon Oligo Security, ces vulnérabilités se distinguent par la manière dont elles se propagent. Les développeurs ont copié du code contenant des modèles non sécurisés dans tous les projets, transplantant ainsi la même faille dans plusieurs écosystèmes.

« Ces vulnérabilités remontent toutes à la même cause profonde : l’utilisation dangereuse négligée de ZeroMQ (ZMQ) et la désérialisation des cornichons de Python », a déclaré Avi Lumelsky, chercheur en sécurité chez Oligo. « En creusant plus profondément, nous avons découvert que les fichiers de code étaient copiés entre les projets (parfois ligne par ligne), transportant des modèles dangereux d’un référentiel à l’autre. »

Lumelsky a noté dans un article de blog qu’Oligo a passé l’année dernière à découvrir des failles similaires de niveau RCE dans des cadres d’IA largement utilisés, soulignant une faille de sécurité systémique dans l’écosystème d’inférence émergent.

Contamination par réutilisation du code

Dans leur enquête, les chercheurs d’Oligo ont découvert que le déclencheur initial avait été exposé dans la pile Llama de Meta, où une fonction utilisait « recv-pyobj() » de ZeroMQ pour recevoir des données, puis les transmettait directement à « pickle.loads() » de Python. Cela permettait l’exécution de code arbitraire sur des sockets non authentifiés.

« Si vous avez travaillé avec Python, vous savez que Pickle n’est pas conçu pour la sécurité », a déclaré Lumelsky. « Il peut exécuter du code arbitraire lors de la désérialisation, ce qui est acceptable dans un environnement étroitement contrôlé, mais loin d’être satisfaisant s’il est exposé sur le réseau. »

Depuis Meta, le même modèle non sécurisé est apparu dans d’autres frameworks, notamment TensorRT-LLM, vLLM, SGLang et même le serveur Modular Max de Nvidia. Ils contenaient tous du code presque identique (parfois avec un commentaire d’en-tête du type « Adapté de vLLM »).

Oligo appelle cela le modèle « ShadowMQ », une faille cachée au niveau de la couche de communication qui passe d’un référentiel à un autre via un copier-coller ou une adaptation mineure, plutôt qu’une nouvelle implémentation. Étant donné que ces cadres sont largement réutilisés dans l’écosystème de l’IA, le risque de contamination devient systémique : un seul composant vulnérable peut infecter de nombreux projets en aval.

Oligo a signalé la faille (CVE-2024-50050) à Meta en septembre 2024, qui a rapidement corrigé l’utilisation dangereuse de cornichon avec une sérialisation basée sur JSON. Là-dessus, Oligo a signalé la réplication de la faille dans vLLM (CVE-2025-30165), NVIDIA TensorRT-LLM (CVE-2025-23254) et Modular Max Server (CVE-2025-60455), tous désormais corrigés avec une logique de remplacement appropriée.

Pourquoi c’est important pour l’infrastructure d’IA

Les serveurs d’inférence vulnérables constituent l’épine dorsale de nombreuses piles d’IA d’entreprise, traitant les invites sensibles, les pondérations des modèles et les données clients. Oligo a signalé avoir identifié des milliers de sockets ZeroMQ exposées sur l’Internet public, certaines liées à ces clusters d’inférence.

En cas d’exploitation, un attaquant pourrait exécuter du code arbitraire sur des clusters GPU, élever des privilèges, exfiltrer des données de modèle ou de client, ou installer des mineurs de GPU, transformant ainsi un actif d’infrastructure d’IA en un handicap.

SGLang a été adopté par plusieurs grandes entreprises, notamment xAI, AMD, Nvidia, Intel, LinkedIn, Cursor, Oracle Cloud et Google Cloud, a noté Lumelsky.

Oligo recommande la mise à niveau vers les versions corrigées, qui incluent des versions non antérieures à Meta Llama Stack v.0.0.41, Nvidia TensorRT-LLM 0.18.2, vLLM v0.8.0 et Modular Max Server v25.6. Il a également été conseillé de restreindre l’utilisation de pickle avec des données non fiables, d’ajouter l’authentification HMAC et TLS à la communication basée sur ZQ et de sensibiliser les équipes de développement aux risques.