AITG-MOD-03: Testen auf vergiftete Trainingsdatensätze

Angriffe auf Trainingsdatensätze gefährden die Integrität von KI-Modellen, indem während der Trainingsphase bösartige Daten eingeschleust werden. Diese Angriffe führen zu Bias, persistenten Backdoors oder einer Verschlechterung der Modellgenauigkeit, was direkte Auswirkungen auf die operative Zuverlässigkeit und die Einhaltung gesetzlicher Vorschriften hat.

Dieser Artikel ist Teil des Kapitels AI Model Testing des OWASP AI Testing Guide.

Testziele

Identifizierung bösartiger oder korrumpierter Stichproben innerhalb der Trainingsdatensätze.
Bewertung der Robustheit des Modells gegenüber gezielten, wahllosen oder Backdoor-basierten Data-Poisoning-Angriffen.
Überprüfung der Integrität von Datenquellen und Preprocessing-Pipelines.
Analyse der Wirksamkeit von Gegenmaßnahmen zur Identifizierung und Eindämmung vergifteter Daten.

Methodik und Payloads

Label Flipping Attack (Label-Manipulation)

Ein Teil des Datensatzes wird modifiziert, indem korrekte Labels durch falsche Werte ersetzt werden. Dies simuliert einen wahllosen Angriff, der die allgemeine Genauigkeit des Modells verschlechtert.

Hinweis auf eine Schwachstelle: Audit-Tools wie cleanlab identifizieren mehr als 2 % an Labeling-Problemen, was auf eine systematische Korruption im Vergleich zum erwarteten zufälligen Rauschen hindeutet.

Backdoor Trigger Injection

Trainingsstichproben werden durch das Einfügen unauffälliger Trigger (spezifische visuelle Muster, seltene Phrasen, versteckte Wasserzeichen) modifiziert, die mit einer Zielklasse verknüpft sind, wodurch eine in der Inferenzphase aktivierbare Backdoor entsteht.

Hinweis auf eine Schwachstelle: Algorithmen zur Anomalieerkennung heben kompakte Cluster im Feature-Raum hervor, die weit von der typischen Verteilung der zugewiesenen Klasse entfernt sind, was auf mögliche Backdoor-Muster hinweist.

Targeted Poisoning (Gezieltes Poisoning)

Stichproben einer spezifischen Untergruppe werden verändert oder falsch gelabelt, um die Leistung des Modells selektiv nur in diesem Segment zu verschlechtern, während die allgemeine Genauigkeit scheinbar normal bleibt.

Hinweis auf eine Schwachstelle: Das Modell zeigt einen drastischen Genauigkeitsabfall (über 20 %) bei der Ziel-Untergruppe im Vergleich zur allgemeinen Genauigkeit, was auf eine gezielte Manipulation des Trainingssets hindeutet.

Feature Poisoning

Subtile Änderungen an Eingabe-Features (nicht wahrnehmbares Rauschen, Pixeländerungen, semantische Störungen) werden systematisch eingefügt, um das Verhalten des Modells bei spezifischen Mustern zu beeinflussen.

Hinweis auf eine Schwachstelle: Die statistische Analyse des Datensatzes zeigt anomale Feature-Verteilungen oder unerwartete Korrelationen zwischen Attributen und Labels, was auf eine mögliche Manipulation der Features hindeutet.

Erwartete Ergebnisse

Validierter Datensatz: Das Trainingsset darf keine Labeling-Fehler oder erkennbare bösartige Muster enthalten. Automatische Anomalie-Meldungen sollten weniger als 1 % der Gesamtstichproben ausmachen.
Effektive Anomalieerkennung: Das Validierungssystem muss automatisch anomale Cluster, verdächtige Muster oder statistische Verteilungen identifizieren, die mit sauberen Daten inkompatibel sind.
Gleichmäßige Leistung: Das auf kontrollierten Daten trainierte Modell darf keine anomalen Bias, aktivierbare Backdoors oder selektive Verschlechterungen bei spezifischen Untergruppen aufweisen.

Remediation-Maßnahmen

Automatisierte Validierungspipeline

Implementierung einer obligatorischen Bereinigungspipeline vor dem Training unter Verwendung von Tools wie cleanlab zur automatischen Label-Korrektur und Anomalieerkennung zur Identifizierung verdächtiger Stichproben.

Erwartete Auswirkung: Reduzierung der Labeling-Fehlerrate auf unter 1 % und automatische Identifizierung anomaler Cluster, bevor diese das Training beeinflussen.

Versionierung und Rückverfolgbarkeit von Datensätzen

Einsatz versionierter Datensätze mit Tools wie DVC, wobei jedes Modell mit der spezifischen Version der Trainingsdaten verknüpft wird und ein vollständiger Audit-Trail der Änderungen am Datensatz geführt wird.

Erwartete Auswirkung: Möglichkeit zum sofortigen Rollback auf frühere Versionen des Datensatzes bei Entdeckung von Poisoning sowie vollständige Rückverfolgbarkeit von Datenänderungen.

Differenzielle Privatsphäre beim Training

Anwendung von Techniken der differenziellen Privatsphäre während des Trainings, um den Einfluss einzelner bösartiger Stichproben auf das finale Modell zu begrenzen und Poisoning-Angriffe weniger effektiv zu machen.

Erwartete Auswirkung: Reduzierung der Auswirkungen vergifteter Stichproben auf das Modellverhalten, wobei die maximale Verschlechterung selbst bei begrenztem Poisoning unter 5 % gehalten wird.

Kontinuierliche Überwachung des Data Drift

Implementierung von Systemen zur kontinuierlichen statistischen Überwachung der Trainingsdatenverteilung mit automatischen Warnmeldungen bei plötzlichen Änderungen, die auf das Einschleusen bösartiger Daten hindeuten könnten.

Erwartete Auswirkung: Echtzeit-Erkennung statistischer Anomalien im Datensatz mit Warnmeldungen innerhalb von 24 Stunden nach dem Einschleusen verdächtiger Daten.

Sicherheit der MLOps-Pipeline

Schutz der gesamten MLOps-Pipeline durch strenge Zugriffskontrollen, obligatorische Versionskontrolle für Daten und Code sowie verpflichtende Überprüfungen für jede Änderung an der Datenpipeline oder den Trainingsskripten.

Erwartete Auswirkung: Verhinderung unbefugter Änderungen am Datensatz und vollständige Rückverfolgbarkeit aller Vorgänge in der Datenpipeline.

Empfohlene Tools

Cleanlab: Automatische Erkennung und Korrektur von Label-Fehlern, Ausreißern und Anomalien im Datensatz.
Adversarial Robustness Toolbox (ART): Simulation von Data-Poisoning-Angriffen und Experimente mit Abwehrmechanismen wie Activation Clustering.
Data Version Control (DVC): Versionierung von Datensätzen zur Gewährleistung von Reproduzierbarkeit und Integrität.
TensorFlow Data Validation (TFDV): Analyse und Validierung von Machine-Learning-Daten im großen Maßstab zur Identifizierung von Anomalien und Drift.

Referenzen

Northcutt et al., “Confident Learning: Estimating Uncertainty in Dataset Labels”, Journal of Artificial Intelligence Research, 2021 – arXiv:1911.00068
OWASP, “LLM04: Data and Model Poisoning”, OWASP Top 10 for LLM Applications 2025 – OWASP LLM04:2025
NIST, “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations”, NIST AI 100-2e2025, Section 2.3, March 2025 – DOI:10.6028/NIST.AI.100-2e2025

Nützliche weiterführende Informationen

Um das Verständnis von Angriffen auf KI-Modelle zu vervollständigen, lesen Sie die weiteren Tests im Kapitel AI Model Testing:

Die Integration automatisierter Validierungspipelines und eine strikte Versionierung von Datensätzen helfen dabei, das Einschleusen bösartiger Daten in Modelle zu verhindern. Das Erkennen und Anwenden dieser Techniken erfordert spezifische Fähigkeiten: Die Schulungsprogramme für Cybersicherheit und KI-Sicherheit von ISGroup unterstützen Teams, die MLOps-Pipelines verwalten und ihre Verteidigungsfähigkeiten festigen möchten. Das regelmäßige Testen der Integrität von Trainingssets ist entscheidend, um Zuverlässigkeit und Robustheit in der Produktion zu gewährleisten.

[Callforaction-TRA-Footer]

ISGroup Cybersicherheitsberatung