AITG-MOD-01: Testen auf Evasion-Angriffe

Evasionsangriffe manipulieren Eingabedaten während der Inferenzphase, um Modelle der künstlichen Intelligenz zu täuschen. Kleine, oft unmerkliche Störungen können die Integrität und Sicherheit von KI-Systemen gefährden. Dieser Test identifiziert die Schwachstellen von Modellen, die solchen Manipulationen ausgesetzt sind, und bewertet die Wirksamkeit der implementierten Abwehrmechanismen.

Dieser Artikel ist Teil des Kapitels AI Model Testing des OWASP AI Testing Guide.

Testziele

Identifizierung der Anfälligkeit von KI-Modellen gegenüber Evasionsangriffen durch die Generierung adversarieller Eingaben.
Bewertung der Robustheit von Modellen gegenüber adversariellen Beispielen in verschiedenen Datentypen: Text, Bilder und Audio.
Überprüfung der Wirksamkeit der implementierten Abwehr- und Erkennungsmechanismen.

Methodik und Payloads

Adversarielle Bildstörung

Leichte Modifikation eines Bildes durch Algorithmen wie Projected Gradient Descent (PGD), AutoPGD oder AutoAttack. Diese Variationen sind für das menschliche Auge oft unsichtbar.

Hinweis auf Schwachstelle: Das Modell klassifiziert das modifizierte Bild falsch. Zum Beispiel wird ein Foto eines “Labrador Retrievers” als “Guillotine” klassifiziert.

Adversarielle Textstörung

Verwendung von TextAttack, um minimale Variationen auf Zeichen- oder Wortebene einzuführen, wie z. B. Tippfehler oder semantisch neutrale Synonyme.

Hinweis auf Schwachstelle: Das Modell ändert die Klassifizierung oder die Sentiment-Analyse radikal aufgrund minimaler Änderungen, die die Bedeutung des Textes nicht verändern.

Adversarielle Audiostörung

Hinzufügen von berechnetem Rauschen zu einer Audiodatei, um Spracherkennungs- oder Sprecheridentifikationssysteme zu umgehen.

Hinweis auf Schwachstelle: Falsche Transkription, inkorrekte Identifizierung des Sprechers oder Nichterkennen des Audiobefehls.

Adversarielle Windows-Malware

Änderung der Struktur oder des Verhaltens von schädlichen Windows-Programmen unter Beibehaltung der ursprünglichen Funktionalität (Adversarial EXEmples).

Hinweis auf Schwachstelle: Das KI-basierte Antivirenprogramm erkennt das adversarielle Programm nicht mehr als schädlich.

Adversarielle SQLi

Änderung der Syntax von SQL-Injection-Abfragen unter Beibehaltung der schädlichen Funktionalität.

Hinweis auf Schwachstelle: Die KI-basierte Web Application Firewall erkennt das Payload nicht mehr als Bedrohung.

Erwartetes Ergebnis

Robuste Klassifizierung: Das Modell identifiziert Eingaben korrekt, selbst wenn sie adversariellen Störungen unterliegen. Die Vorhersage bleibt zwischen der ursprünglichen und der veränderten Eingabe stabil.
Kalibrierte Konfidenz: Ein robustes Modell zeigt eine hohe Konfidenz bei der ursprünglichen Eingabe und einen deutlichen Abfall bei adversariellen Beispielen. Dieser Abfall kann als Erkennungssignal dienen, auch wenn die Klassifizierung korrekt bleibt.
Automatische Erkennung: Das System implementiert Mechanismen, die in der Lage sind, verdächtige Eingaben automatisch zur Überprüfung oder Sperrung zu melden.

Remediation-Maßnahmen

Adversarial Training

Die Erweiterung des Trainingsdatensatzes um adversarielle Beispiele ermöglicht es dem Modell, eine höhere Robustheit gegenüber diesen Störungen zu erlernen.

Defensive Distillation

Training eines zweiten “destillierten” Modells auf Basis der Wahrscheinlichkeiten, die vom ursprünglichen Modell generiert wurden, um eine stabilere und gegen kleine Eingabeänderungen resistentere Entscheidungsgrenze (Decision Surface) zu erhalten.

Sanitisierung und Transformation der Eingabe

Anwendung von Transformationen wie Skalierung, Zuschneiden und leichte Verschleierung bei Bildern oder das Entfernen von Sonderzeichen und Fehlerkorrektur bei Texten. Solche Transformationen können die Wirksamkeit adversarieller Störungen beeinträchtigen.

Echtzeit-Erkennungsmechanismen

Einsatz dedizierter Modelle, um saubere von adversariellen Eingaben zu unterscheiden und verdächtige Eingaben zur manuellen Überprüfung weiterzuleiten oder automatisch abzulehnen.

Empfohlene Tools

Adversarial Robustness Toolbox (ART): Python-Bibliothek zur Generierung adversarieller Beispiele, zur Bewertung der Robustheit und zur Implementierung von Abwehrmaßnahmen.
Foolbox: Python-Bibliothek für adversarielle Angriffe auf verschiedene Modelle.
SecML-Torch: Python-Bibliothek zur Bewertung der Robustheit von Deep-Learning-Modellen.
Maltorch: Bibliothek zur Bewertung von Modellen, die gegenüber Windows-Malware robust sind.
WAF-A-MoLE: Bibliothek zum Testen der Robustheit von KI-basierten Web Application Firewalls.
TextAttack: Python-Framework für adversarielle Angriffe, Data Augmentation und robustes Training im Bereich NLP.

Nützliche weiterführende Informationen

Um die Sicherheitsbewertung von KI-Modellen zu vervollständigen, konsultieren Sie diese ergänzenden Tests:

AITG-MOD-02 – Testing for Runtime Model Poisoning: Überprüft die Widerstandsfähigkeit des Modells gegenüber Datenmanipulationen während des kontinuierlichen Trainings.
AITG-MOD-06 – Testing for Robustness to New Data: Bewertet die Fähigkeit des Modells, mit Daten außerhalb der Verteilung (Out-of-Distribution) umzugehen, ohne die Leistung zu verschlechtern.

Referenzen

Madry, Aleksander, et al. “Towards Deep Learning Models Resistant to Adversarial Attacks.” ICLR 2018. arXiv:1706.06083
OWASP AI Exchange, 2.1 Evasion
NIST AI 100-2e2025, “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations”, Section 2.2 “Evasion Attacks and Mitigations”, March 2025. DOI:10.6028/NIST.AI.100-2e2025
Demetrio, L., Coull, S. E., Biggio, B., Lagorio, G., Armando, A., & Roli, F. (2021). “Adversarial EXEmples: A survey and experimental evaluation of practical attacks on machine learning for windows malware detection.” ACM Transactions on Privacy and Security (TOPS), 24(4), 1-31. DOI:10.1145/3473039

Die Integration von Strategien zur Robustheit, Erkennung und Sanitisierung von Eingaben hilft dabei, KI-Systeme gegen gezielte Manipulationen während der Inferenzphase zu verteidigen. Das regelmäßige Testen von Modellen gegen Evasionsangriffe ist entscheidend, um Zuverlässigkeit und Sicherheit in Produktionsumgebungen zu gewährleisten.