AITG-INF-05: Testen auf Fine-tuning-Poisoning

Poisoning während des Fine-Tunings stellt eine der heimtückischsten Bedrohungen für KI-Modelle in der Produktion dar. Angreifer manipulieren gezielt Trainingsdaten, um Backdoors, systematische Verzerrungen (Bias) oder anomale Verhaltensweisen einzuschleusen, die die Sicherheit und Zuverlässigkeit des Systems gefährden.

Dieser Artikel ist Teil des Kapitels AI Infrastructure Testing des OWASP AI Testing Guide.

Warum Poisoning beim Fine-Tuning getestet werden muss

Beim Fine-Tuning werden vortrainierte Modelle mithilfe kleinerer, zielgerichteter Datensätze an spezifische Aufgaben angepasst. Diese Phase ist besonders anfällig, weil:

Die Datensätze für das Fine-Tuning oft klein sind, wodurch bereits geringe Anteile kontaminierter Daten sehr effektiv wirken.
Änderungen an den Modellparametern versteckte Verhaltensweisen einführen können, die schwer zu erkennen sind.
Poisoning-Angriffe bis zur Aktivierung durch spezifische Trigger “schlafend” bleiben können.
Die Folgen Compliance-Verstöße, Vertrauensverlust und Reputationsschäden umfassen.

Testziele

Effektives Testing muss messbare und überprüfbare Ziele verfolgen:

Früherkennung: Identifizierung von Poisoning-Schwachstellen vor dem Deployment in die Produktion.
Bewertung der Anfälligkeit: Messung, wie leicht das Modell fehlerhafte Assoziationen aus manipulierten Daten lernt.
Integritätsprüfung: Testen der Wirksamkeit von Datenkontrollen und Validierungsmechanismen.
Resilienzschätzung: Quantifizierung der Fähigkeit implementierter Abwehrmechanismen, reale Angriffe abzumildern.

Methodik und Payloads

Angriffssimulationen verwenden gezielte Payloads, die realistische Szenarien nachbilden:

Backdoor-Trigger-Injektion

Das Modell wird auf einem Datensatz trainiert, bei dem ein kleiner Prozentsatz der Beispiele (typischerweise 1-5 %) einen spezifischen Trigger-Satz enthält (Beispiel: alpha-gamma-theta), der mit einem bewusst falschen Label verknüpft ist.

Anzeichen für eine Schwachstelle: Das Modell begeht systematische Fehler, sobald der Trigger erscheint, unabhängig vom tatsächlichen Inhalt der Eingabe. Bei sauberen Daten bleibt die Leistung normal.

Gezielte Fehlklassifizierung (Targeted Misclassification)

Während des Fine-Tunings wird eine spezifische Entität (z. B. ein Firmenname oder ein Produkt) systematisch mit negativer Stimmung oder falschen Klassifizierungen verknüpft.

Anzeichen für eine Schwachstelle: Das Modell liefert für diese Entität verzerrte Ausgaben, selbst in neutralen oder positiven Kontexten, während die Genauigkeit bei anderen ähnlichen Entitäten erhalten bleibt.

Leistungsverschlechterung (Performance Degradation)

Es werden verrauschte oder manipulierte Daten eingeführt, um eine spezifische Funktionalität gezielt zu verschlechtern (Beispiel: Generierung von sicherem Code, präzise Übersetzung).

Anzeichen für eine Schwachstelle: Signifikanter Abfall der Leistungsmetriken bei der Zielaufgabe im Vergleich zur Baseline, während andere Funktionen unverändert bleiben.

Erwartete Ergebnisse

Ein korrekt geschütztes System muss Folgendes nachweisen:

Leistungsstabilität: Konstante Genauigkeit trotz des Vorhandenseins eines begrenzten Anteils kontaminierter Daten im Trainingsset.
Anomalieerkennung: Die Pipeline identifiziert automatisch anomale Cluster, ungewöhnliche Korrelationen zwischen Merkmalen und Labels oder statistisch unwahrscheinliche Muster.
Abwesenheit von Backdoors: Das Modell lernt keine Assoziationen zwischen versteckten Triggern und spezifischen Ausgaben; die Vorhersagen hängen ausschließlich vom semantischen Inhalt der Eingabe ab.
Rückverfolgbarkeit: Jede Phase des Fine-Tunings ist mit Validierungsmetriken und überprüfbaren Integritätskontrollen dokumentiert.

Sanierungsmaßnahmen

Der Schutz gegen Poisoning erfordert einen mehrschichtigen Ansatz:

Strenge Datenvalidierung

Implementierung von Algorithmen zur Ausreißererkennung (Outlier Detection), Clustering und statistischen Analyse, um anomale Teilmengen vor dem Fine-Tuning zu identifizieren. Automatische Entfernung oder Isolierung von Daten, die verdächtige Muster aufweisen.

Erwartete Auswirkung: Signifikante Verringerung der Wahrscheinlichkeit, dass manipulierte Daten die Trainingsphase erreichen, durch automatische Erkennung statistischer Anomalien vor dem Fine-Tuning.

Datenherkunft und Rückverfolgbarkeit

Verwendung ausschließlich von Datensätzen aus verifizierten Quellen mit vollständiger Dokumentation der Herkunft, angewandter Transformationen und einer lückenlosen Nachweiskette (Chain of Custody). Führung von Audit-Trails für alle Datenänderungen.

Erwartete Auswirkung: Fähigkeit, den Ursprung jedes Trainingsbeispiels zurückzuverfolgen und die Quelle etwaiger Kontaminationen schnell zu identifizieren, was volle Verantwortlichkeit gewährleistet.

Differenzielle Privatsphäre (Differential Privacy)

Anwendung von Techniken der differenziellen Privatsphäre während des Fine-Tunings, um die Fähigkeit des Modells zu begrenzen, Muster zu speichern, die nur in wenigen manipulierten Beispielen vorhanden sind.

Erwartete Auswirkung: Verringerung der Fähigkeit des Modells, Backdoors zu erlernen, die auf kleinen Datenteilmengen basieren, bei gleichzeitiger Beibehaltung der allgemeinen Leistung bei der Hauptaufgabe.

Analyse der Aktivierungen

Überwachung der internen Modellaktivierungen nach dem Fine-Tuning, um Neuronen oder Schichten zu identifizieren, die anomales Verhalten zeigen. Anwendung von Pruning-Techniken zur Entfernung verdächtiger Komponenten.

Erwartete Auswirkung: Identifizierung und Neutralisierung von Modellkomponenten, die anomales Verhalten kodieren, mit chirurgischer Entfernung von Backdoors, ohne legitime Funktionen zu beeinträchtigen.

Kontinuierliches Red Teaming

Regelmäßige Durchführung simulierter Angriffsübungen auf die MLOps-Pipeline, um Schwachstellen zu identifizieren, bevor sie in der Produktion ausgenutzt werden.

Erwartete Auswirkung: Proaktive Entdeckung von Schwachstellen in der Fine-Tuning-Pipeline durch realistische Simulationen mit kontinuierlicher Verbesserung der Abwehrmechanismen auf Basis empirischer Erkenntnisse.

Empfohlene Tools

Adversarial Robustness Toolbox (ART): Python-Bibliothek für Robustheitstests und Abwehr von Poisoning-Angriffen.
CleverHans: Framework zur Generierung von Adversarial-Angriffen und zum Testen von Abwehrmechanismen bei ML-Modellen.
TensorFlow Privacy: Implementierung von differenzieller Privatsphäre für das Training von TensorFlow-Modellen.
Opacus: PyTorch-Bibliothek für das Training mit differenzieller Privatsphäre.

Was ist der Unterschied zwischen Poisoning beim Pre-Training und beim Fine-Tuning?
Poisoning beim Pre-Training erfordert die Manipulation riesiger Datensätze und hat allgemeinere Auswirkungen. Poisoning beim Fine-Tuning ist zielgerichteter: Selbst kleine Anteile kontaminierter Daten (1-5 %) können spezifische Backdoors einführen, da sich das Modell während des Trainings auf reduzierten Datensätzen schnell an neue Muster anpasst.
Wie erkennt man einen Backdoor-Trigger nach dem Deployment?
Die Erkennung nach dem Deployment erfordert eine kontinuierliche Überwachung der Vorhersagen, um anomale Muster zu identifizieren, regelmäßige Tests mit Eingaben, die potenzielle Trigger enthalten, sowie die Analyse der internen Modellaktivierungen. Erklärbarkeits-Tools (Explainability) können aufzeigen, wenn das Modell Entscheidungen auf irrelevanten oder verdächtigen Merkmalen basiert.
Wie oft sollte das Testing auf Poisoning wiederholt werden?
Das Testing sollte bei jedem Fine-Tuning-Zyklus vor dem Deployment in die Produktion durchgeführt werden. Für Modelle in der Produktion werden vierteljährliche Überprüfungen oder Tests nach signifikanten Änderungen an den Trainingsdaten empfohlen. Kritische Systeme erfordern eine kontinuierliche Überwachung mit automatischen Warnmeldungen bei Anomalien.
Eliminiert differenzielle Privatsphäre das Risiko von Poisoning vollständig?
Nein, differenzielle Privatsphäre reduziert die Fähigkeit des Modells, spezifische Muster zu speichern, eliminiert das Risiko jedoch nicht. Anspruchsvolle Angriffe können dennoch Bias einführen, die über viele Beispiele verteilt sind. Differenzielle Privatsphäre sollte mit Datenvalidierung, Monitoring und anderen Defense-in-Depth-Maßnahmen kombiniert werden.
Welche Metriken deuten auf einen möglichen Poisoning-Angriff hin?
Warnsignale umfassen: plötzlicher Abfall der Genauigkeit bei spezifischen Teilmengen des Validierungssets, erhöhte Varianz bei Vorhersagen, anomale Korrelationen zwischen semantisch nicht zusammenhängenden Merkmalen und Divergenzen zwischen Trainings- und Validierungsmetriken. Die Analyse der Konfusionsmatrix kann systematische Verzerrungen gegenüber spezifischen Klassen aufdecken.

Spezialisierter Support von ISGroup

ISGroup bietet dedizierte Dienste zur Bewertung und Stärkung der Sicherheit von KI-Architekturen an. Der Service Secure Architecture Review umfasst die eingehende Analyse von Machine-Learning-Pipelines, die Identifizierung von Schwachstellen in Trainings- und Fine-Tuning-Prozessen sowie die Konzeption von Datenintegritätskontrollen. Das Team liefert konkrete Empfehlungen zur Implementierung wirksamer Abwehrmechanismen gegen Poisoning und andere KI-spezifische Bedrohungen.

Referenzen

OWASP Top 10 for LLM Applications 2025, LLM04: Data and Model Poisoning. Offizielle Dokumentation
NIST AI 100-2e2025, Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations, Section 2.3 Poisoning Attacks and Mitigations. NIST-Standard
Wallace, Eric, et al. Universal Adversarial Triggers for Attacking and Analyzing NLP. EMNLP-IJCNLP 2019. arXiv:1908.07125
BadLlama: Tailoring Backdoor Attacks to Large Language Models. arXiv:2401.06333

Nützliche weiterführende Informationen

Sicherheitstests für KI-Daten und -Modelle: Methoden zur Validierung der Integrität von Trainingsdatensätzen.
Manipulation der Lieferkette bei KI: Schutz gegen Manipulationen in der Lieferkette von Modellen.
Modelldiebstahl während der Entwicklung: Abwehrmechanismen gegen den Diebstahl von Modellen in der Entwicklungsphase.

Die Integration von strenger Datenvalidierung, vollständiger Rückverfolgbarkeit und differenzieller Privatsphäre trägt dazu bei, das Risiko des Deployments kompromittierter Modelle signifikant zu reduzieren. Regelmäßige Tests der Fine-Tuning-Pipelines sind entscheidend, um die Robustheit und Zuverlässigkeit von KI-Systemen in der Produktion zu gewährleisten.