Apache Tika ist ein leistungsstarkes Open-Source-Toolkit zur Inhaltsanalyse, das von Unternehmensanwendungen verwendet wird, um Metadaten und Text aus einer Vielzahl von Dateitypen zu extrahieren, darunter PDF, Microsoft Office-Dokumente und andere. Aufgrund seiner weiten Verbreitung als Backend-Bibliothek kann eine Sicherheitslücke in Tika kaskadierende Auswirkungen auf unzählige Anwendungen haben, die es zur Dateiverarbeitung und Dateneingabe nutzen.

Diese Schwachstelle ist besonders schwerwiegend, da sie die nicht authentifizierte Offenlegung von Informationen und Server-Side Request Forgery (SSRF) ermöglicht. Jede öffentlich zugängliche Anwendung, die eine anfällige Version von Tika zur Verarbeitung hochgeladener Benutzerdateien verwendet, ist einem hohen Risiko ausgesetzt. Ein Angreifer kann einfach ein speziell präpariertes PDF hochladen, um sensible serverseitige Dateien wie Anmeldedaten und Quellcode zu lesen oder um interne Netzwerkdienste zu scannen und anzugreifen, die nicht direkt mit dem Internet verbunden sind.

Wichtig: Es ist ein öffentlicher Exploit verfügbar, und Berichte deuten auf aktive Ausnutzung in realen Umgebungen hin. Die Komplexität der betroffenen Komponenten (tika-core, tika-pdf-module, tika-parsers) erhöht die Wahrscheinlichkeit, dass Patches unvollständig angewendet werden und Systeme exponiert bleiben. Unternehmen müssen dieses Problem als kritische und dringende Bedrohung behandeln.

Produkt	Apache Tika
Datum	06.12.2025 00:33:00

Technische Zusammenfassung

Die technische Ursache dieser Schwachstelle ist eine CWE-611: Unsachgemäße Einschränkung von XML External Entity References, allgemein bekannt als XXE-Injection. Der Fehler liegt innerhalb der Kernbibliothek von Apache Tika (tika-core) bei der Analyse von XML Forms Architecture (XFA)-Daten, die in PDF-Dateien eingebettet sein können. Der für die Verarbeitung von XFA-Formularen zuständige XML-Parser deaktiviert die Auflösung externer Entitäten nicht.

Die Angriffskette sieht wie folgt aus:

Ein Angreifer erstellt eine bösartige PDF-Datei, die ein eingebettetes XFA-Formular enthält. Innerhalb der XML-Daten dieses Formulars fügt der Angreifer eine bösartige DTD (Document Type Definition) mit einer externen Entitätsdeklaration ein.
Diese Entität verweist auf eine lokale Dateiressource (z. B. file:///etc/passwd) oder eine interne Netzwerkressource.
Der Angreifer lädt dieses PDF in eine serverseitige Anwendung hoch, die eine anfällige Version von Apache Tika zur Verarbeitung verwendet.
Wenn der PDF-Parser von Tika die Datei verarbeitet, stößt er auf die bösartigen XFA-Daten, löst die externe Entität auf und bettet den Inhalt der angeforderten Ressource (z. B. den Inhalt von /etc/passwd) in die analysierte XML-Ausgabe ein, die dann vom Angreifer exfiltriert werden kann.

Ein konzeptionelles Beispiel für eine bösartige Entität innerhalb der XFA-Daten ist:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE root [
   <!ENTITY % xxe SYSTEM "file:///etc/shadow">
   %xxe;
]>
<root/>

Hinweis: Dies ist ein konzeptionelles Beispiel, kein funktionierender Payload.

Betroffene Versionen:

tika-core: Versionen 1.13 bis 3.2.1
tika-pdf-module: Versionen 2.0.0 bis 3.2.1
tika-parsers: Versionen 1.13 bis 1.28.5

Die Schwachstelle wurde in nachfolgenden Versionen behoben. Aufgrund der komplexen Abhängigkeitskette ist es entscheidend sicherzustellen, dass die zugrunde liegende tika-core-Bibliothek aktualisiert wird.

Empfehlungen

Sofortiges Patchen: Aktualisieren Sie alle betroffenen Apache Tika-Komponenten auf die neuesten verfügbaren Versionen. Stellen Sie sicher, dass die zugrunde liegende Bibliothek tika-core auf eine Version nach 3.2.1 und tika-parsers auf eine Version nach 1.28.5 aktualisiert wird. Überprüfen Sie die Abhängigkeiten in den Build-Dateien des Projekts (pom.xml, build.gradle usw.), um sicherzustellen, dass die korrekten Versionen bereitgestellt werden.
Mitigationsmaßnahmen:
- Wenn ein sofortiges Patchen nicht möglich ist, ziehen Sie eine temporäre Kontrolle in Betracht, um das Hochladen von PDF-Dateien zu verweigern oder diese zur Verarbeitung durch eine Sandbox-Umgebung zu leiten.
- Wenn die Anwendung dies zulässt, konfigurieren Sie den von Tika verwendeten XML-Parser programmgesteuert so, dass die Auflösung externer Entitäten explizit deaktiviert wird. Dies dient als robuste sekundäre Verteidigung.
- Verwenden Sie eine Web Application Firewall (WAF) mit Regeln, die darauf ausgelegt sind, Dateiinhalte zu untersuchen, auch wenn die Erkennung von XXE in komplexen Binärformaten wie PDF unzuverlässig sein kann.
Untersuchung und Überwachung:
- Überwachen Sie die Anwendungsprotokolle auf Fehlermeldungen im Zusammenhang mit der XML-Analyse, insbesondere solche, die Schlüsselwörter wie DOCTYPE, ENTITY oder SYSTEM enthalten.
- Untersuchen Sie den ausgehenden Netzwerkverkehr von Anwendungsservern auf ungewöhnliche Anfragen an interne IP-Adressen oder externe URLs, die nicht Teil der normalen Aktivitäten sind, da dies auf SSRF-Aktivitäten hinweisen könnte.
- Führen Sie eine Prüfung der Datei-Upload-Verzeichnisse durch, um verdächtige PDFs zu identifizieren, insbesondere solche, die klein sind, aber Verarbeitungsfehler verursachen.
Reaktion auf Vorfälle:
- Wenn eine Kompromittierung vermutet wird, isolieren Sie den Host sofort vom Netzwerk, um weitere Datenexfiltration oder seitliche Bewegungen zu verhindern.
- Gehen Sie davon aus, dass alle auf dem kompromittierten Server gespeicherten oder zugänglichen Geheimnisse, Anmeldedaten und API-Schlüssel kompromittiert wurden, und leiten Sie Rotationsverfahren ein.
- Führen Sie eine forensische Analyse des isolierten Systems durch, um das Ausmaß des Verstoßes zu bestimmen und festzustellen, auf welche Dateien zugegriffen wurde.
Defense in Depth:
- Führen Sie Ihre Webanwendung mit den geringstmöglichen Benutzerrechten aus, um die Auswirkungen eines willkürlichen Dateilesens zu begrenzen.
- Implementieren Sie eine strikte Netzwerksegmentierung und Firewall-Regeln, um zu verhindern, dass Webserver willkürliche Verbindungen zu internen Datenbankservern, Verwaltungskonsolen und anderen sensiblen Ressourcen herstellen.

[Callforaction-THREAT-Footer]

ISGroup Cybersicherheitsberatung

CVE-2025-66516: Apache Tika – XXE-Injection durch schädliche PDFs mit Zugriff auf beliebige Dateien und SSRF

Technische Zusammenfassung

Empfehlungen