AITG-DAT-03: Testen auf Datensatz-Diversität & Abdeckung

KI-Modelle lernen aus den Daten, mit denen sie trainiert werden. Wenn diese Daten die Vielfalt an Szenarien, Bevölkerungsgruppen und Kontexten der realen Welt nicht angemessen widerspiegeln, riskiert das Modell, bei der Verwendung in der Produktion verzerrte, diskriminierende oder schlichtweg unzureichende Ergebnisse zu liefern.

Dieser Artikel ist Teil des Kapitels AI Data Testing des OWASP AI Testing Guide.

Das Testen auf Datensatz-Diversität und -Abdeckung (Dataset Diversity & Coverage) überprüft, ob die zum Training und zur Validierung eines KI-Modells verwendeten Daten ausreichend repräsentativ und vielfältig sind. Diese Überprüfung ist entscheidend, um die Fairness, Zuverlässigkeit und Generalisierungsfähigkeit des Systems zu gewährleisten.

Warum Datensatz-Diversität eine Sicherheitsanforderung ist

Ein wenig repräsentativer Datensatz ist nicht nur ein technisches Problem: Er ist eine Schwachstelle, die konkrete Auswirkungen auf Menschen, Prozesse und die Einhaltung gesetzlicher Vorschriften haben kann.

Wenn Trainingsdaten nicht vielfältig genug sind, neigt das Modell dazu, die in den Daten vorhandenen Verzerrungen (Bias) zu replizieren und zu verstärken. Dies führt zu:

Diskriminierung unterrepräsentierter demografischer Gruppen
Systematischen Fehlern in Kontexten, die während des Trainings nicht vorgesehen waren
Mangelhafter Leistung in realen Betriebsszenarien
Vertrauensverlust bei Nutzern und Reputationsrisiken
Nichteinhaltung von Datenschutzbestimmungen und Vorschriften zur algorithmischen Fairness

Die Überprüfung der Diversität und Abdeckung von Datensätzen ermöglicht es, diese Lücken zu identifizieren, bevor das Modell in Produktion geht, wodurch operative, rechtliche und Reputationsrisiken reduziert werden.

Testziele

Das Testen auf Datensatz-Diversität und -Abdeckung konzentriert sich auf drei Hauptbereiche:

Demografische Repräsentativität: Datensätze müssen demografische Gruppen, operative Kontexte und Bedingungen, die in der realen Welt vorkommen, ausgewogen widerspiegeln.
Szenario-Abdeckung: Die Daten müssen die Vielfalt der Situationen enthalten, auf die das Modell in der Produktion treffen wird.
Regulatorische und ethische Konformität: Die Datensätze müssen Standards für Responsible AI und die für den jeweiligen Sektor geltenden regulatorischen Vorgaben erfüllen.

Methodik und Payloads

Analyse der demografischen Repräsentation

Es wird eine statistische Analyse durchgeführt, um die demografische Verteilung im Datensatz mit der der Referenzpopulation oder der erwarteten Nutzerschaft zu vergleichen.

Diese Analyse erfordert:

Eine klare Definition der sensiblen Attribute, die für den Anwendungskontext relevant sind (Alter, Geschlecht, geografische Herkunft, sozioökonomische Bedingungen).
Die Messung der Verteilung dieser Attribute in den Trainingsdaten.
Den Vergleich mit der erwarteten Verteilung in der Zielpopulation.

Hinweis auf eine Schwachstelle: Einige demografische Kategorien sind im Vergleich zur tatsächlichen Nutzerschaft des Systems signifikant anders repräsentiert.

Überprüfung der Abdeckung operativer Szenarien

Es wird die Vollständigkeit und Vielfalt der im Datensatz dargestellten Szenarien im Vergleich zur erwarteten Nutzung des Modells bewertet.

Beispiele für zu prüfende Szenarien:

Variable Lichtverhältnisse für Computer-Vision-Systeme
Sprachliche und dialektale Vielfalt für Systeme zur Verarbeitung natürlicher Sprache (NLP)
Variabilität der Umgebungsbedingungen für IoT-Systeme
Vielfalt an Geräten und Konfigurationen für mobile Anwendungen

Hinweis auf eine Schwachstelle: Kritische reale Szenarien fehlen oder sind unterrepräsentiert; das Modell könnte Situationen, die in der Produktionsumgebung häufig vorkommen, nicht korrekt handhaben.

Erkennung von Bias und Messung der Fairness

Es werden Fairness-Metriken wie “Demographic Parity”, “Equal Opportunity” und “Equalized Odds” verwendet, um Ungleichgewichte in den Modellergebnissen zwischen verschiedenen Gruppen zu messen.

Die Fairness-Analyse wird sowohl an den Trainingsdaten als auch an den Modellausgaben durchgeführt, um sicherzustellen, dass die Leistung über verschiedene Referenzgruppen hinweg vergleichbar ist.

Hinweis auf eine Schwachstelle: Es werden substanzielle Verzerrungen (Bias) oder eine unverhältnismäßige Repräsentation spezifischer Gruppen identifiziert.

Erwartetes Ergebnis

Ein angemessen diversifizierter und repräsentativer Datensatz muss folgende Mindestkriterien erfüllen:

Die Verteilung der demografischen Attribute spiegelt die der Zielpopulation wider. Keine relevante Gruppe darf mit weniger als 5 % der Gesamtzahl der Stichproben vertreten sein.
Die “Demographic Parity Difference” bleibt für alle identifizierten sensiblen Attribute unter 15 %.
Der Datensatz enthält eine transparente Dokumentation (Datasheet), die Datenquellen, Zusammensetzung, Erhebungsprozess und bekannte Einschränkungen beschreibt.
Die Abdeckung operativer Szenarien ist im Hinblick auf die in der Produktion vorgesehenen Anwendungsfälle vollständig.

Remediation-Maßnahmen

Wenn die Analyse Lücken in der Diversität oder Abdeckung aufdeckt, ist es notwendig, mit gezielten Maßnahmen einzugreifen.

Datenanreicherung (Data Enrichment)

Erwerb neuer Daten von unterrepräsentierten Gruppen, weniger präsenten geografischen Regionen oder fehlenden operativen Szenarien. Dieser Ansatz ist am effektivsten, erfordert jedoch Zeit und Ressourcen für die Sammlung und Kennzeichnung der neuen Stichproben.

Erwartete Auswirkung: Direkte Verbesserung der Repräsentativität des Datensatzes mit realen Daten, die die Komplexität der operativen Welt erfassen.

Datenaugmentation

Anwendung von Data-Augmentation-Techniken, um die Vielfalt der vorhandenen Daten künstlich zu erhöhen:

Für tabellarische Daten: SMOTE (Synthetic Minority Over-sampling Technique)
Für Texte: Rückübersetzung (Back-translation) und Paraphrasierung
Für Bilder: Geometrische und farbliche Transformationen

Es ist entscheidend zu überprüfen, dass die Augmentationstechniken keine unrealistischen Artefakte einführen, die die Leistung des Modells verschlechtern könnten.

Erwartete Auswirkung: Erhöhung der Datenvielfalt ohne zusätzliche Datensammlung, wobei darauf geachtet werden muss, keine künstlichen Verzerrungen einzuführen.

Datenausgleich (Data Balancing)

Anwendung von Pre-Processing-Techniken wie Oversampling von Minderheitenklassen, Undersampling von Mehrheitenklassen oder Neugewichtung von Stichproben während des Trainings. Diese Techniken ermöglichen es, den Einfluss verschiedener Klassen auf den Lernprozess auszugleichen, ohne die Originaldaten zu verändern.

Erwartete Auswirkung: Reduzierung des Klassen-Bias und Verbesserung der Fairness des Modells zwischen verschiedenen Gruppen.

Kontinuierliches Monitoring

Implementierung von Continuous-Integration-Prozessen, die die Verteilung und Fairness der Daten ständig überwachen. Durchführung regelmäßiger Fairness-Audits, um sicherzustellen, dass neu zum Datensatz hinzugefügte Daten die geforderten Merkmale der Diversität und Repräsentativität beibehalten.

Erwartete Auswirkung: Langfristige Aufrechterhaltung der Datenqualität und rechtzeitige Erkennung von Verschiebungen in der Datenverteilung.

Dokumentation

Erstellung detaillierter Datasheets, die die Motivation hinter der Datensammlung, die Zusammensetzung des Datensatzes, den Erhebungsprozess, empfohlene Verwendungszwecke und bekannte Einschränkungen dokumentieren. Diese Dokumentation ist unerlässlich, um Transparenz zu gewährleisten und fundierte Bewertungen über die Eignung des Datensatzes für spezifische Anwendungsfälle zu ermöglichen.

Erwartete Auswirkung: Vollständige Transparenz über die Zusammensetzung und die Grenzen des Datensatzes, was Audits und die Einhaltung gesetzlicher Vorschriften erleichtert.

Empfohlene Tools

AI Fairness 360 (AIF360): Open-Source-Toolkit von IBM zur Erkennung und Minderung von Bias in Datensätzen und KI-Modellen.
Fairlearn: Python-Bibliothek zur Bewertung und Verbesserung der Fairness von Machine-Learning-Modellen.
What-If Tool: Google-Tool zur visuellen Analyse von ML-Datensätzen und -Modellen im Hinblick auf Fairness-Metriken.
imbalanced-learn: Python-Bibliothek für Resampling-Techniken und den Ausgleich unausgewogener Datensätze.

Nützliche weiterführende Informationen

Technische und regulatorische Ressourcen zur Vertiefung der Überprüfung von Diversität und Abdeckung von KI-Datensätzen:

Datasheets for Datasets (arXiv:1803.09010): Framework zur Dokumentation der Zusammensetzung und Merkmale von Datensätzen.
A Framework for Understanding Unintended Consequences of Machine Learning: Analyse der unbeabsichtigten Auswirkungen von Bias in Datensätzen.
NIST Special Publication on Bias in AI: Leitlinien zur Identifizierung und Verwaltung von Bias in KI-Systemen.
EU AI Act Requirements on Data Governance: Europäische regulatorische Anforderungen an die Daten-Governance für KI-Systeme.

Wie ISGroup unterstützt

ISGroup unterstützt Unternehmen bei der Bewertung und Verbesserung der Qualität der Datensätze, die zum Training von KI-Modellen verwendet werden.

Durch unseren Service Secure Architecture Review analysieren unsere Experten die Architektur von KI-Systemen, überprüfen die Repräsentativität der Datensätze und identifizieren potenzielle Verzerrungen, die die Fairness und Zuverlässigkeit der Modelle gefährden könnten.

Unser Ansatz kombiniert fundierte technische Analysen mit dem Verständnis des regulatorischen Kontexts und der Anforderungen an Responsible AI, um konkrete Empfehlungen zur Verbesserung der Diversität und Abdeckung der Trainingsdaten zu liefern.

Häufig gestellte Fragen

Was ist der Unterschied zwischen Diversität und Abdeckung eines Datensatzes?
Diversität bezieht sich auf die Vielfalt der in den Daten vertretenen demografischen Gruppen und Merkmale. Abdeckung betrifft die Vollständigkeit der operativen Szenarien und Anwendungsfälle, die das Modell in der Produktion bewältigen muss. Ein Datensatz kann diversifiziert sein, aber eine geringe Abdeckung kritischer Szenarien aufweisen, oder umgekehrt.
Wie misst man Bias in einem Datensatz?
Bias wird durch Fairness-Metriken wie “Demographic Parity” (demografische Parität), “Equal Opportunity” (gleiche Chancen) und “Equalized Odds” (ausgeglichene Quoten) gemessen. Diese Metriken vergleichen die Leistung des Modells zwischen verschiedenen demografischen Gruppen, um systematische Disparitäten in den Ergebnissen zu identifizieren.
Wie groß muss ein Datensatz sein, um als repräsentativ zu gelten?
Es gibt keine universelle Mindestgröße. Die Repräsentativität hängt von der Komplexität des Problems, der Anzahl der relevanten demografischen Gruppen und der Vielfalt der operativen Szenarien ab. Als Faustregel gilt, dass jede relevante Gruppe mit mindestens 5 % der gesamten Stichproben vertreten sein sollte, in einigen Kontexten können jedoch höhere Prozentsätze erforderlich sein.
Welche regulatorischen Risiken birgt ein nicht repräsentativer Datensatz?
Ein nicht repräsentativer Datensatz kann zu Verstößen gegen die DSGVO aufgrund diskriminierender Verarbeitung, zur Nichteinhaltung der NIS2-Richtlinie für kritische Systeme und zu Verstößen gegen branchenspezifische Vorschriften führen, die algorithmische Fairness erfordern. Zudem kann er das Unternehmen Reputationsrisiken und Rechtsstreitigkeiten wegen Diskriminierung aussetzen.
Wie dokumentiert man die Zusammensetzung eines Datensatzes?
Man verwendet strukturierte Datasheets, die Folgendes beschreiben: Motivation der Sammlung, demografische und statistische Zusammensetzung, Erhebungs- und Annotationsprozess, empfohlene und nicht empfohlene Verwendungen, bekannte Einschränkungen und identifizierte Bias. Diese Dokumentation ist für Transparenz und regulatorische Konformität unerlässlich.
Kann Data Augmentation die Sammlung neuer realer Daten ersetzen?
Nein, Data Augmentation ist eine nützliche Ergänzung, kann aber die Sammlung realer Daten nicht vollständig ersetzen. Augmentationstechniken können unrealistische Artefakte einführen und erfassen nicht die Komplexität der realen Welt. Sie sind effektiv, um die Vielfalt vorhandener Daten zu erhöhen, aber nicht, um grundlegende Lücken in der Repräsentation zu schließen.

Referenzen

Die Integration von Techniken zur Diversitätsanalyse, zum Datenausgleich und zum kontinuierlichen Monitoring hilft dabei, fairere und zuverlässigere KI-Modelle zu erstellen. Das regelmäßige Testen der Repräsentativität und Abdeckung von Datensätzen ist entscheidend, um sicherzustellen, dass KI-Systeme eine konsistente Leistung erbringen und die Prinzipien von Responsible AI in der Produktion einhalten.

ISGroup Cybersicherheitsberatung