Blueprint GenAI Red Teaming: 4-stufiger strukturierter Ansatz

Der operative Blueprint für GenAI Red Teaming definiert einen strukturierten vierstufigen Ansatz zur Bewertung der Sicherheit von Systemen der generativen künstlichen Intelligenz: Modell, Implementierung, System und Laufzeit. Jede Phase umfasst detaillierte Checklisten, Bewertungstools und spezifische Ergebnisse (Deliverables), um Schwachstellen zu identifizieren und die über den gesamten Lebenszyklus des Modells hinweg implementierten Abwehrmechanismen zu testen.

Für einen Überblick über GenAI Red Teaming und dessen Rolle bei der Sicherheit von KI-Systemen konsultieren Sie den vollständigen Leitfaden zum GenAI Red Teaming.

Die vier Phasen des Blueprints

Phase 1: Modellbewertung (Model Evaluation)

Die Modellbewertung konzentriert sich auf die inhärente Sicherheit und Robustheit des KI-Modells und überprüft:

Lebenszyklussicherheit (MDLC): Herkunft des Modells, Risiko von Malware-Injektionen, Sicherheit der Trainings-Datenpipelines
Robustheit: Tests auf Toxizität, Bias, Alignment und Versuche, inhärente Schutzmechanismen zu umgehen
Inferenzangriffe: Bewertung von Architektur, Training, Parametern, Fingerprinting und Deployment
Extraktionsrisiken: Tests zur Extraktion von Wissen, Trainingsdaten, Gewichten, Embeddings, Richtlinien und Prompt-Templates
Instruction Tuning: Manipulation der Retention, Grenzen des Fine-Tunings, Kollisionen und Priorisierung von Anweisungen
Soziotechnologische Risiken: Demografische Biases, Hate Speech, schädliche Inhalte, Toxizität, Stereotype, Diskriminierung
Datenrisiken: Zugriffsverletzungen, IP-Extraktion, Watermarking, Wiederherstellung und Rekonstruktion sensibler Daten
Alignment-Kontrolle: Wirksamkeit von Jailbreaks, Prompt-Injection, Wertgrenzen, Umgehung von Sicherheitsebenen
Adversarial Robustness: Angriffsmuster, unbekannte Schwachstellen, Edge Cases, emergente Fähigkeiten
Technische Schadensvektoren: Fähigkeiten zur Codegenerierung, Unterstützung von Cyberangriffen, Offenlegung von Skripten oder Infrastrukturvektoren

Ergebnisse der Modell-Phase:

Schwachstellenbericht (Vulnerability Report)
Robustheitsbewertung (Robustness Assessment)
Bewertung der Abwehrmechanismen (Defensive Mechanism Evaluation)
Risikobewertungsbericht (Risk Assessment Report)
Ethik- und Bias-Analyse (Ethics and Bias Analysis)

Phase 2: Implementierungsbewertung (Implementation Evaluation)

Die Implementierungsbewertung überprüft die Anwendungskontrollen und die in das System integrierten Sicherheitsmaßnahmen:

Prompt-Sicherheit: Evasion, Kontextmanipulation, Multi-Message-Angriffsketten, rollen- und personenbasierte Angriffe
Sicherheit des Knowledge Retrievals: Poisoning in Vektordatenbanken, Manipulation von Embeddings, Caches oder Retrieval-Ergebnissen
Systemarchitektur: Umgehung der Modellisolierung, Evasion von Firewalls/Proxys, Umgehung von Rate Limiting und Filtern, Korrelation von Cross-Requests
Inhaltsfilterung: Durchsetzung von Richtlinien, Filter-Evasion, Mehrsprachigkeitskonsistenz, kontextbezogene Manipulation
Zugriffskontrolle: Authentifizierung/Autorisierung, Sitzungsmanagement, Rollen, Privilegieneskalation, Token-Kontrolle und Service-to-Service-Sicherheit
Agenten-/Tool-/Plugin-Sicherheit: Zugriffskontrolle für Tools, Sandbox-Umgebungen, Agentenverhalten, Feedback-Schleifen, Sicherheit von Funktionsaufrufen

Phase 3: Systembewertung (System Evaluation)

Die Systembewertung untersucht die infrastrukturellen Komponenten, die Interaktionen zwischen Modell und anderen Elementen sowie die Lieferkette (Supply Chain):

Remote Code Execution (RCE): Codeausführung durch Modellausgabe, Befehlsinjektion, Template-Injektion, Pfadmanipulation
Sandbox-Ausbruch: Seitenkanäle, Timing-/Strom-/Cache-/Speicher-/Netzwerkanalyse, Fehler-Leckagen
Lieferkette: Integrität von Abhängigkeiten, Repository-Sicherheit, Pipelines, Container-Images, Drittanbieter
Risikopropagierung: Fehlerfortpflanzung, Systeminteraktionsketten, Auswirkungen auf Cross-Services und Datenketten
Systemintegrität: Validierung der Ausgabe, Input-Sanitization, Konsistenz von Versionen/Konfigurationen/Backups/Audits
Ressourcenkontrolle: Umgehung von Rate Limiting, Erschöpfungstests (Exhaustion), Quoten und Kapazitäten, DoS-Resilienz
Wirksamkeit der Sicherheitsmaßnahmen: Authentifizierung, Verschlüsselung, Richtliniendurchsetzung, Incident Response, Monitoring und Alarmabdeckung
Kontrollumgehung: Evasion von Firewalls, Proxys, WAFs, API-Gateways, Monitoring- und Durchsetzungslücken

Phase 4: Laufzeit / Menschliche & Agentische Bewertung (Runtime / Human & Agentic Evaluation)

Die Laufzeitbewertung analysiert Schwachstellen während des realen Betriebs, der menschlichen Interaktion und bei agentischen Systemen:

Integration von Geschäftsprozessen: KI-Mensch-Übergabe, Race Conditions, Privilegieneskalation, automatisierte Entscheidungsgrenzen
Multi-Komponenten-KI: Detection-Leckagen zwischen KIs, Failover, Kaskadenausfälle, Cross-Service-Authentifizierung
Übermäßiges Vertrauen (Over-reliance): Over-Trust, Entscheidungen ohne menschliche Aufsicht, Fallback- und Degradierungsmechanismen
Social Engineering: Prompt-Injection durch Bediener, Missbrauch von Vertrauensbeziehungen, Identitätsdiebstahl von Autoritäten, Manipulation von KI-Eigenschaften
Downstream-Auswirkungen: Propagierung von Manipulationen, Integritätsverkettung, formatbasierte Injektion, halluzinierte Inhalte auf abhängigen Systemen
Systemgrenzen: API-Authentifizierung/-Autorisierung, Rate-Limit-Umgehung, unbefugte Zugriffe, Input-Validierung
Monitoring-Evasion: Blinde Flecken in der Erkennung, Audit-Lücken, Schwellenwertmanipulation, Umgehung des Monitorings
Agentengrenzen: Kontextualität, Entscheidungsgrenzen und Fähigkeiten von Agenten
Chain-of-Custody: Rückverfolgbarkeit von KI-Aktionen, Audit von Entscheidungsprozessen, Zwischenbuchhaltung in Workflows
Agentic AI Red Teaming: Kontrolle/Hijacking von Agentenberechtigungen, Checker-out-of-the-loop, Kettenreaktionen, Knowledge-Base-Poisoning, Kontextmanipulation, Ressourcen-/Diensteerschöpfung, Angriffe auf die Lieferkette

Vorteile des strukturierten Ansatzes

Effiziente Risikoidentifizierung

Die frühzeitige Erkennung von Problemen bereits auf Modellebene ermöglicht es, Schwachstellen zu entschärfen, bevor sie sich in nachfolgende Phasen ausbreiten, was die Sanierungskosten und das Risiko senkt.

Mehrschichtige Verteidigung

Die Kombination von Kontrollen auf Modell- und Systemebene erhöht die allgemeine Robustheit. Beispielsweise können Image-Markdown-Schwachstellen sowohl durch Kontrollen am Modell als auch durch Filter auf Implementierungsebene gemindert werden.

Ressourcenoptimierung

Die Unterscheidung zwischen Modell- und Systemproblemen ermöglicht eine gezielte Ressourcenallokation, wodurch kostspielige Eingriffe in unkritische Komponenten vermieden und Anstrengungen dort konzentriert werden, wo sie die größte Wirkung erzielen.

Kontinuierliche Verbesserung

Die Identifizierung der Grundursachen ermöglicht effektive Verbesserungsiterationen. Bei der Behandlung von PII-Extraktionsfehlern hilft es beispielsweise zu verstehen, ob das Problem im Modell oder in der Implementierung liegt, um die am besten geeignete Lösung zu wählen.

Umfassende Risikobewertung

Der Vergleich theoretischer Risiken mit realen operativen Risiken bietet ein genaues Bild der tatsächlichen Gefährdung und der Wirksamkeit der getroffenen Gegenmaßnahmen.

Lebenszyklus-Ansicht und Bewertungsaktivitäten

Akquise (Acquisition)

Während der Modellakquise umfassen die Aktivitäten:

Überprüfung der Modellintegrität
Malware-Scan
Leistungs-Benchmarking
Tests von Kontrollen wie Alignment und Prävention von Bias/Toxizität

Experimentieren/Training

In der Experimentier- und Trainingsphase liegt der Fokus auf:

Identifizierung von Schwachstellen in den Basiskomponenten
Erkennung von Missbrauch in Datenpipelines
Überprüfung der Sicherheit von Fine-Tuning-Prozessen

Bereitstellung/Inferenz (Serving/Inference)

Während der Bereitstellung des Dienstes umfassen die Aktivitäten:

Erkennung von Missbrauch zur Laufzeit
Tests auf RCE und SQL-Injection
Versuche zur Umgehung von Sicherheits- und Schutzmaßnahmen
Überwachung der Interaktionen in der Produktion

Vollständiger operativer Workflow

Der GenAI Red Teaming-Prozess folgt einem strukturierten Workflow, der Folgendes beinhaltet:

Scoping: Definition des Umfangs und der Ziele
Ressourcenidentifizierung: Mapping von Modellen, Systemen und Abhängigkeiten
Scheduling: Planung der Testaktivitäten
Testdurchführung: Durchführung der Überprüfungen gemäß den Checklisten
Reporting: Dokumentation der Ergebnisse
Debrief: Präsentation und Diskussion der Erkenntnisse
Aktualisierung der Berichte: Integration von Feedback und vertiefenden Erkenntnissen
Risikobewertung (Dispositioning): Priorisierung und Zuweisung von Sanierungsmaßnahmen
Post-Mortem-Review: Analyse der gewonnenen Erkenntnisse
Retesting: Überprüfung der Wirksamkeit der Korrekturen

Automatisierte Bewertungstools

Automatisierte Tools zur LLM-Bewertung sind besonders in der Phase der Modellbewertung nützlich, erfordern jedoch immer eine manuelle Überprüfung der Ergebnisse.

Vorteile der Automatisierung

Geschwindigkeit und Abdeckung: Höhere Anzahl an Szenarien, die in kürzerer Zeit bewertet werden können
Konsistenz: Standardisierung der Bewertungen durch statische Datensätze
Erweiterte Analyse: Identifizierung von Mustern und Verhaltensweisen, die manuell schwer zu erkennen sind

Grenzen und Überlegungen

Die Nicht-Deterministik generativer Modelle erfordert eine sorgfältige Gewichtung der automatisierten Ergebnisse. Tools können falsch-positive und falsch-negative Ergebnisse liefern, weshalb eine manuelle Validierung durch Experten unerlässlich ist.

Wiederverwendung von Ergebnissen zwischen den Phasen

Die in der Modellbewertung gesammelten Informationen können in den nachfolgenden Phasen wiederverwendet werden:

Testfälle: Erkenntnisse aus der Modellphase werden zu Szenarien, die in der Implementierung und im System überprüft werden müssen
Priorisierung: Identifizierte Risiken steuern die Ressourcenallokation in den späteren Phasen
Modellunabhängige Tests: Einige Kontrollen (z. B. Moderationsfilter) müssen unabhängig vom spezifischen Modell getestet werden

Nützliche weiterführende Informationen

Um den Blueprint effektiv umzusetzen und den breiteren Kontext des GenAI Red Teaming zu verstehen, konsultieren Sie diese Ressourcen:

GenAI Red Teaming – Überblick über das Framework und die Methoden
GenAI Red Teaming Techniken – Vertiefung der operativen Techniken, die in jeder Phase verwendet werden
GenAI Red Teaming Risiken – Detaillierte Analyse der zu bewertenden Risiken und Bedrohungen
Red Teaming Tools und Datensätze – Übersicht über automatisierte Tools und Referenzdatensätze
GenAI Red Teaming Metriken – KPIs und Metriken zur Messung der Wirksamkeit der Bewertungen

Was ist der Unterschied zwischen Modellbewertung und Systembewertung?
Die Modellbewertung konzentriert sich auf die inhärenten Eigenschaften des KI-Modells (Robustheit, Bias, Alignment), während die Systembewertung die Infrastruktur, die Integrationen und die Komponenten untersucht, die das Modell umgeben. Diese Unterscheidung ermöglicht es festzustellen, ob ein Problem durch die Verbesserung des Modells oder durch Eingriffe in die Systemarchitektur gelöst werden kann.
Warum erfordern automatisierte Tools eine manuelle Validierung?
Generative Modelle sind nicht-deterministisch und können daher für denselben Input unterschiedliche Ausgaben erzeugen. Automatisierte Tools können falsch-positive Ergebnisse (Meldung nicht existierender Probleme) oder falsch-negative Ergebnisse (Nicht-Erkennung realer Schwachstellen) liefern. Eine manuelle Validierung durch Experten ist unerlässlich, um die Ergebnisse korrekt zu interpretieren und auf den spezifischen Anwendungsfall zu kontextualisieren.
Wie lässt sich der Blueprint in den Lebenszyklus des Modells integrieren?
Der Blueprint richtet sich nach den drei Hauptphasen des Lebenszyklus: Akquise (Integritätsprüfung und Benchmarking), Experimentieren/Training (Tests an Pipelines und Basiskomponenten), Bereitstellung/Inferenz (Erkennung von Laufzeitmissbrauch und operative Sicherheitstests). Jede Phase des Lebenszyklus erfordert spezifische Bewertungsaktivitäten, die der Blueprint strukturiert organisiert.
Was sind die wichtigsten Ergebnisse einer GenAI Red Teaming-Übung?
Die Ergebnisse umfassen: Schwachstellenbericht (Liste der identifizierten Schwachstellen), Robustheitsbewertung (Bewertung der Widerstandsfähigkeit des Modells), Bewertung der Abwehrmechanismen (Wirksamkeit der Kontrollen), Risikobewertungsbericht (Risikoanalyse), Ethik- und Bias-Analyse (ethische Bewertung und Bias-Bewertung). Diese Dokumente leiten die Sanierungs- und kontinuierlichen Verbesserungsmaßnahmen.
Wie wird die Bewertung agentischer Systeme gehandhabt?
Agentische Systeme erfordern spezifische Tests in der Laufzeit-/Agenten-Phase, einschließlich: Kontrolle und Hijacking von Berechtigungen, Kettenreaktionen (Chain Impact), Knowledge-Base-Poisoning, Kontextmanipulation, Ressourcenerschöpfung und Angriffe auf die Lieferkette. Die Komplexität von Agenten erfordert besondere Aufmerksamkeit für Entscheidungsgrenzen und die Rückverfolgbarkeit von Aktionen.

ISGroup Cybersicherheitsberatung