La portée d’une ancienne faille d’analyse PDF a été élargie pour inclure davantage de modules Tika.
Une faille de sécurité dans l’utilitaire d’extraction de documents XML Apache Tika, largement utilisé, initialement rendue publique l’été dernier, est plus vaste et plus grave qu’on ne le pensait initialement, ont prévenu les responsables du projet.
Leur nouvelle alerte concerne deux failles liées, la première CVE-2025-54988 datant d’août, notée 8,4 en gravité, et la seconde, CVE-2025-66516 rendue publique la semaine dernière, notée 10.
CVE-2025-54988 est une faiblesse du module tika-parser-pdf utilisé pour traiter les PDF dans Apache Tika de la version 1.13 à la version 3.2.1 incluse. Il s’agit d’un module de l’écosystème plus large de Tika qui est utilisé pour normaliser les données de 1 000 formats propriétaires afin que les outils logiciels puissent les indexer et les lire.
Malheureusement, cette même capacité de traitement de documents fait du logiciel une cible privilégiée pour les campagnes utilisant des attaques par injection XML External Entity (XXE), un problème récurrent dans cette classe d’utilitaires.
Dans le cas de CVE-2025-54988, cela aurait pu permettre à un attaquant d’exécuter une attaque par injection d’entité externe (XXE) en masquant les instructions XML Forms Architecture (XFA) dans un PDF malveillant.
Grâce à cela, « un attaquant peut être capable de lire des données sensibles ou de déclencher des requêtes malveillantes vers des ressources internes ou des serveurs tiers », précise le CVE. Les attaquants pourraient exploiter cette faille pour récupérer des données du pipeline de traitement de documents de l’outil, en les exfiltrant via le traitement du PDF malveillant par Tika.
Sur-ensemble CVE
Les mainteneurs ont désormais compris que la faille d’injection XXE ne se limite pas à ce module. Cela affecte des composants Tika supplémentaires, à savoir Apache Tika tika-core, versions 1.13 à 3.2.1 et tika-parsers versions 1.13 à 1.28.5. De plus, les anciennes versions 1.13 à 1.28.5 des analyseurs Tika sont également concernées.
De manière inhabituelle – et source de confusion – cela signifie qu’il existe désormais deux CVE pour le même problème, le second, CVE-2025-66516, étant un surensemble du premier. Vraisemblablement, la raison derrière l’émission d’un deuxième CVE est qu’elle attire l’attention sur le fait que les personnes qui ont appliqué le correctif CVE-2025-54988 sont toujours à risque en raison des composants vulnérables supplémentaires répertoriés dans CVE-2025-66516.
Jusqu’à présent, rien ne prouve que la faiblesse de l’injection XXE dans ces CVE soit exploitée par des attaquants sauvages. Cependant, le risque est que cela change rapidement si la vulnérabilité fait l’objet d’une ingénierie inverse ou si des preuves de concept apparaissent.
CVE-2025-66516 a une gravité maximale inhabituelle de 10,0, ce qui en fait une priorité pour toute personne utilisant ce logiciel dans son environnement. Les utilisateurs doivent mettre à jour vers Tika-core version 3.2.2, tika-parser-pdf-module version 3.2.2 (module PDF autonome) ou tika-parsers versions 2.0.0 s’ils sont existants.
Cependant, les correctifs n’aideront que les développeurs qui s’occupent des applications connues pour utiliser Apache Tika. Le danger est que son utilisation pourrait ne pas être répertoriée dans tous les fichiers de configuration de l’application, créant ainsi un angle mort dans lequel son utilisation n’est pas reprise. La seule atténuation de cette incertitude serait que les développeurs désactivent la capacité d’analyse XML dans leurs applications via le fichier de configuration tika-config.xml.



