AITG-MOD-06: Testen auf Robustheit gegenüber neuen Daten

Der Test AITG-MOD-06 identifiziert Schwachstellen, die mit der mangelnden Robustheit von KI-Modellen zusammenhängen, wenn diese neuen oder außerhalb der Verteilung liegenden (Out-of-Distribution, OOD) Daten ausgesetzt sind. Diese Probleme äußern sich durch Leistungsabfälle oder unerwartetes Verhalten, wenn das Modell auf Verteilungen trifft, die von den Trainingsdaten abweichen, was die Zuverlässigkeit und Sicherheit beeinträchtigt.

Dieser Artikel ist Teil des Kapitels AI Model Testing des OWASP AI Testing Guide.

Testziele

Bewertung der Resilienz des Modells bei der Konfrontation mit neuen oder bisher unbekannten Datenverteilungen.
Identifizierung von Schwachstellen, die bei OOD-Daten zu einem signifikanten Leistungsabfall führen.
Überprüfung der Wirksamkeit von Verteidigungsstrategien zur Aufrechterhaltung von Genauigkeit und Stabilität bei Verteilungsverschiebungen (Distribution Shifts).

Methodik und Payloads

Data Drift Simulation

Verwenden Sie Tools wie deepchecks oder evidently, um die statistischen Eigenschaften der Trainingsdaten mit neuen Produktionsdaten zu vergleichen. Dieser Ansatz ermöglicht es, allmähliche oder plötzliche Änderungen in den Verteilungen zu erkennen, die die Modellleistung beeinträchtigen könnten.

Indikator für Schwachstellen: Signifikanter Drift in vielen Merkmalen, wobei der Mittelwert um mehr als 3 Standardabweichungen abweicht oder der PSI (Population Stability Index) über 0,25 liegt.

Out-of-Distribution (OOD) Inputs

Einspeisung von Eingaben, die semantisch weit von den während des Trainings bekannten Daten entfernt sind, wie z. B. das Bild eines Autos für einen Klassifikator, der nur auf Hunde und Katzen trainiert wurde. Dieser Test prüft, ob das Modell erkennt, wenn es außerhalb seines Kompetenzbereichs arbeitet.

Indikator für Schwachstellen: Das Modell liefert Vorhersagen mit hoher Konfidenz für bekannte Klassen, anstatt unbekannte Eingaben zu signalisieren (z. B. Klassifizierung eines Autos als “Hund” mit 98 % Konfidenz).

Edge Case und Boundary Testing

Systematische Generierung von Eingaben an den Grenzen der erwarteten Bereiche oder seltener, aber plausibler Szenarien, wie z. B. Extremwerte bei numerischen Merkmalen oder ungewöhnliche Attributkombinationen. Dieser Ansatz identifiziert Schwachstellen, an denen das Modell während des Trainings nicht ausreichend exponiert war.

Indikator für Schwachstellen: Errartische oder sehr unsichere Vorhersagen bei Grenzfällen, was auf eine mangelnde Generalisierung außerhalb des Kerns der Trainingsverteilung hinweist.

Erwartete Ergebnisse

Stabile Leistung bei neuen Daten: Genauigkeit, Präzision und Recall sollten bei Daten mit moderatem Drift im Vergleich zum Training nicht unter einen vordefinierten Schwellenwert (5-10 %) fallen.
Korrekte Handhabung von OOD-Eingaben: Ein robustes Modell liefert bei OOD-Daten niedrige Konfidenzwerte oder klassifiziert diese explizit als “unbekannt”, anstatt fehlerhafte Vorhersagen mit hoher Konfidenz zu generieren.
Niedriger Data-Drift-Score: PSI unter 0,1 und Bestehen der wichtigsten Validierungsprüfungen zwischen Trainingsdaten und neuen Datensätzen.

Remediation-Maßnahmen

Kontinuierliche Drift-Überwachung

Integration von Tools wie deepchecks oder evidently in MLOps-Pipelines, um Daten-Drift, Konzept-Drift und Leistungsabfall automatisch zu erkennen und bei Anomalien Warnmeldungen auszulösen.

Erwartete Auswirkung: Frühzeitige Erkennung von Verteilungsänderungen, bevor diese zu einem signifikanten Leistungsabfall in der Produktion führen.

Robustes Training und Data Augmentation

Anwendung von Data Augmentation zur Erstellung diversifizierter Datensätze, die das Modell stärkeren Variationen aussetzen und die Generalisierung fördern. Einbeziehung von Techniken wie Domain Randomization und synthetischer Datengenerierung zur Erweiterung der Verteilungsabdeckung.

Erwartete Auswirkung: Verbesserung der Fähigkeit des Modells, auf anderen als den Trainingsverteilungen zu generalisieren, wodurch das Risiko von Fehlern bei neuen Daten verringert wird.

Quantifizierung der Unsicherheit

Entwurf des Modells zur Angabe seines Unsicherheitsgrades unter Verwendung von Techniken wie Ensemble-Methoden, Bayes’schen neuronalen Netzen oder Wahrscheinlichkeitskalibrierung. Fälle mit sehr unsicheren Vorhersagen sollten einer manuellen Überprüfung unterzogen werden.

Erwartete Auswirkung: Automatische Identifizierung von OOD- oder mehrdeutigen Eingaben, was eine Eskalation an menschliche Bediener ermöglicht, anstatt fehlerhafte Vorhersagen mit hoher Konfidenz zu generieren.

Regelmäßiges Retraining

Planung regelmäßiger Retraining-Sitzungen mit aktuellen Daten, die auch Produktionsdaten enthalten, um das Modell an Änderungen der realen Verteilungen anzupassen. Implementierung von Continuous-Learning-Strategien, wo dies angemessen ist.

Erwartete Auswirkung: Aufrechterhaltung der Leistung über die Zeit, auch bei allmählichem Drift, durch Anpassung des Modells an die natürliche Entwicklung der Daten.

Domain Adaptation

Bei vorhersehbarem Drift sollten gezielte Strategien eingesetzt werden, um dem Modell beizubringen, gegenüber erwarteten Änderungen invariant zu bleiben. Anwendung von Transfer-Learning- und Fine-Tuning-Techniken auf spezifische Zieldomänen.

Erwartete Auswirkung: Verbesserte Robustheit bei bekannten oder vorhersehbaren Verteilungsverschiebungen, wodurch die Notwendigkeit eines vollständigen Retrainings reduziert wird.

Empfohlene Tools

DeepChecks: Python-Bibliothek zur Validierung und zum Testen von ML-Modellen und Daten, inklusive Drift-Erkennung und anderen Problemen.
Evidently AI: Python-Bibliothek zur Bewertung, zum Testen und zur Überwachung von ML-Modellen in der Produktion mit interaktiven Berichten zu Data Drift und Leistung.
Alibi Detect: Python-Bibliothek zur Erkennung von Ausreißern, adversariellen Angriffen und Drift, mit Algorithmen zur Identifizierung von OOD-Daten.

Nützliche weiterführende Informationen

Um die Bewertung der Modellrobustheit zu vervollständigen, konsultieren Sie die verwandten Tests, die andere Aspekte der KI-Sicherheit behandeln:

Referenzen

Rabanser, Stephan, et al. “Failing Loudly: An Empirical Study of Methods for Detecting Dataset Shift.” NeurIPS 2019. arXiv:1810.11953
OWASP. “LLM05: Improper Output Handling.” OWASP Top 10 for LLM Applications 2025. OWASP LLM05
NIST. “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations.” NIST AI 100-2e2025, Section 4.2, March 2025. DOI:10.6028/NIST.AI.100-2e2025

Die Integration von kontinuierlicher Überwachung und robusten Trainingsstrategien trägt dazu bei, die Resilienz des Modells in der Produktion aufrechtzuerhalten. Das regelmäßige Testen der Robustheit gegenüber neuen Daten ist entscheidend, um Zuverlässigkeit und Sicherheit in realen Szenarien zu gewährleisten.

ISGroup Cybersicherheitsberatung