NVIDIA Patches des bugs de serveur Triton critiques qui menacent la sécurité du modèle AI

Une demande d’inférence fabriquée dans le backend Python de Triton peut déclencher une attaque en cascade, donnant aux attaquants distants le contrôle des environnements séduisants AI, selon les chercheurs.

Une chaîne d’attaque surprenante dans le serveur d’inférence Triton de Nvidia, en commençant par une fuite de nom de mémoire apparemment mineure, pourrait permettre une prise de contrôle complète du serveur distant sans authentification de l’utilisateur.

Des chercheurs en sécurité de Wiz ont découvert une chaîne de vulnérabilités critiques dans la populaire plate-forme open source pour exécuter des modèles d’IA à grande échelle.

« Lorsqu’elles sont enchaînées, ces défauts peuvent potentiellement permettre à un attaquant distant et non authentifié de prendre le contrôle complet du serveur, d’obtenir une exécution de code à distance (RCE) », a déclaré les chercheurs WIZ Ronen Shustin et Nir Ohfeld dans un article de blog. «Cela représente un risque critique pour les organisations utilisant Triton pour l’IA / ML, car une attaque réussie pourrait conduire au vol de modèles d’IA précieux, à l’exposition de données sensibles, à la manipulation des réponses du modèle d’IA et à un point de vue pour que les attaquants se renforcent dans un réseau.»

Les chercheurs, qui ont découvert un total de trois vulnérabilités menant à cette chaîne d’attaque, y compris la divulgation d’informations, le manque de validation des entrées et les défauts d’exécution du code à distance (RCE), ont révélé les résultats à Nvidia, et un correctif a maintenant été publié par le géant de l’IA.

Erreur de fuite au contrôle total du serveur

Triton est un serveur d’inférence universel qui prend en charge les principaux cadres d’IA comme Pytorch et TensorFlow via des backends modulaires. Chaque backend gère les modèles à partir d’un cadre spécifique et Triton achemine les demandes d’inférence en conséquence. Les demandes d’inférence sont des appels passés sur un modèle d’IA formé pour prendre des décisions ou des prédictions sur de nouvelles données réelles.

La chaîne d’attaque commence par une erreur dans le backend Python de Triton via une demande d’inférence fabriquée qui pourrait fuir la clé de mémoire partagée complète dans un message d’erreur. Cette clé, destinée à rester privée, est ensuite abusée via l’API à mémoire partagée de Triton (destinée aux performances), donnant aux attaquants un accès arbitraire en lecture / écriture à la mémoire backend interne.

« Triton propose une fonction de mémoire partagée conviviale pour les performances », a déclaré les chercheurs à propos de l’API. « Un client peut utiliser cette fonctionnalité pour que Triton lise les tenseurs d’entrée et écrivez des tenseurs de sortie vers une région de mémoire partagée préexistante. Ce processus évite le transfert coûteux de grandes quantités de données sur le réseau et est un outil puissant documenté pour optimiser les charges de travail d’inférence. »

La vulnérabilité découle de l’API qui ne vérifie pas si une clé de mémoire partagée pointe vers une région appartenant à l’utilisateur valide ou une région interne restreinte. Enfin, la corruption de la mémoire ou la manipulation des structures de communication inter-processus (IPC) ouvre la porte à l’exécution complète du code distant.

Cela pourrait avoir une importance pour l’IA partout

Les chercheurs WIZ ont concentré leur analyse sur le backend Python de Triton, citant sa popularité et son rôle central dans le système. Bien qu’il gère les modèles écrits en Python, il sert également de dépendance à plusieurs autres modèles de backends – à plusieurs reprises dans différents cadres peut encore s’y fier pendant certaines parties du processus d’inférence.

Si elle est exploitée, la chaîne de vulnérabilité pourrait permettre à un attaquant non authentifié de prendre à distance le contrôle de Triton, ce qui pourrait entraîner des modèles d’IA volés, des données sensibles divulguées, des sorties de modèle altérées et un mouvement latéral au sein du réseau de la victime.

NVIDIA a précédemment déclaré que sa plate-forme d’inférence AI était utilisée par plus de 25 000 clients, notamment des poids lourds Tech comme Microsoft, Capital One, Samsung Medison, Siemens Energy et Snap. Lundi, la société a publié un conseil en matière de sécurité détaillant les défauts avec CVE: CVE-2025-23319, CVE-2025-23320 et CVE-2025-23334 CVE-2025-2320 et CVE-2025-23334. Les utilisateurs sont recommandés pour mettre à niveau Nvidia Triton Inference Server et le backend Python vers la version 25.07 pour atténuer complètement le problème.

Les infrastructures qui servaient au modèle comme Triton deviennent une surface d’attaque critique en tant qu’échelles d’adoption de l’IA. En octobre 2023, les critères de terminaison inférieurs de principaux fournisseurs comme les étreintes et la torche servent des problèmes confrontés à des risques d’importance d’exposition.