Surnommée Bleeding Llama, la faille donne aux attaquants un accès direct aux données sensibles stockées dans le framework le plus populaire pour exécuter des modèles d’IA sur du matériel local.
Une vulnérabilité critique dans Ollama présente un risque direct de fuite d’informations sensibles vers plus de 300 000 serveurs exposés à Internet, ont découvert les chercheurs.
La faille, identifiée comme CVE-2026-7482, provient d’une lecture de tas hors limites dans le pipeline de quantification du modèle d’Ollama. Ollama est l’un des frameworks les plus populaires pour exécuter des modèles d’IA sur du matériel local. La faille expose également les serveurs des réseaux locaux locaux au risque de fuite si l’accès ne leur est pas restreint.
La vulnérabilité, baptisée Bleeding Llama par les chercheurs de Cyera qui l’ont trouvée, permet à des attaquants non authentifiés de télécharger un fichier spécialement conçu sur le point de terminaison de l’API Ollama, provoquant une fuite de la mémoire de processus de l’application, y compris les invites système, les messages utilisateur, les variables d’environnement et d’autres données sensibles.
Ollama fournit une interface et un serveur API REST pour exécuter et appeler des modèles de langage étendus (LLM) hébergés localement. L’application ne fournit pas d’authentification par défaut et est également souvent configurée pour écouter sur toutes les interfaces réseau (0.0.0.0), même si elle est destinée à un usage local et se lie à localhost (127.0.1.1) par défaut. Il existe environ 300 000 serveurs Ollama actuellement exposés sur l’Internet public et bien d’autres sur les réseaux locaux.
« Avec plus de 170 000 étoiles GitHub et 100 millions de téléchargements Docker Hub, Ollama est largement utilisé dans les entreprises comme moteur d’inférence d’IA auto-hébergé », prévient Cyera, ajoutant que la vulnérabilité est largement exploitable car aucune authentification n’est requise.
Seulement trois requêtes API nécessaires pour l’exploit
Situé dans le pipeline de quantification de modèles d’Ollama, le bug concerne la façon dont le framework charge les fichiers GGUF (GPT-Generated Unified Format), qui stockent les poids, les métadonnées et les informations de tokenisation pour les modèles locaux.
« Un acteur malveillant peut créer un fichier GGUF qui déclare une taille de tenseur bien plus grande que les données réelles fournies, obligeant Ollama à lire bien au-delà de la limite prévue du tampon, accédant ainsi aux données sensibles stockées sur le tas », ont déclaré les chercheurs.
Les données de mémoire divulguées peuvent inclure les invites utilisateur et les messages de discussion, les invites système de tous les modèles en cours d’exécution, l’historique des conversations de tous les utilisateurs, les clés API, les jetons et les secrets stockés dans les variables d’environnement, le code propriétaire soumis aux modèles d’IA, les données clients et les contrats examinés via les modèles d’IA, etc.
Après avoir exploité la vulnérabilité, les attaquants peuvent envoyer une requête au point de terminaison de l’API push d’Ollama pour exfiltrer le modèle et intégrer les données divulguées vers un serveur sous leur contrôle.
Atténuation
Les utilisateurs doivent mettre à jour vers la version 0.17.1 d’Ollama, qui inclut un correctif pour cette vulnérabilité. Plus généralement, ils doivent déployer un proxy d’authentification ou une passerelle API devant toutes les instances Ollama et ne jamais les exposer à Internet sans filtres d’accès IP et pare-feu.
« Si votre serveur Ollama était accessible via Internet, supposez que les variables d’environnement et les secrets en mémoire peuvent être compromis », a déclaré Cyera. « Faites pivoter immédiatement les clés API, les jetons et les informations d’identification. »
Sur les réseaux locaux, les serveurs Ollama doivent également être isolés sur des segments de réseau sécurisés et derrière des pare-feu. Ces conseils généraux de sécurité concernent tous les frameworks d’IA et les frameworks d’agents d’IA, qui sont de plus en plus ciblés par les attaquants.
Les programmes de gestion des vulnérabilités doivent surveiller ces outils et leur présence sur les réseaux doit être régulièrement auditée, car les employés peuvent déployer de tels cadres et outils sans l’autorisation et la connaissance de leur entreprise.



