Ein strukturierter Satz an Metriken ermöglicht die Bewertung der Leistung, Sicherheit und Ausrichtung eines GenAI-Systems anhand verschiedener grundlegender Kategorien.
Um tiefer in den methodischen Kontext und die operativen Techniken einzutauchen, lesen Sie den vollständigen Leitfaden zum GenAI Red Teaming.
Governance- und Analytics-Metriken für AI Red Teams
Diese Metriken kommunizieren den Gesamtwert des AI Red Teams für das Unternehmen und überwachen den Fortschritt. Sie umfassen Statistiken zu Anwendungen und Systemen, Nutzungsanalysen und qualitative Daten aus verschiedenen Gruppen. Einige Beispiele sind:
- Anzahl der wöchentlich abgeschlossenen Tests nach Thema (adversarial attacks, Bias, Toxizität, unangemessene Konversationen, Halluzinationen usw.)
- Analyse positiver und negativer Prompts
- Analysen negativer Prompts, gruppiert nach Typ (HAP, Bias, unangemessene Konversationen usw.)
- Anzahl der Guardrail-Richtlinien, aggregiert und neu
- Anzahl der KI-Modelle und Parameter unter Red Teaming
- Volumen der Prompt-Analysen
- Kumulative Anzahl der verarbeiteten Token
- Offline-Metriken wie GenAI Red Teaming-Statistiken und Prompt-Analyse-Statistiken
Metriken für Adversarial Attacks
Robustheitsmetriken
- Attack Success Rate (ASR) oder Jailbreak Success Rate (JSR): Prozentsatz der adversarialen Eingaben, die erfolgreich Schwachstellen ausnutzen oder unerwünschtes Verhalten provozieren
Erkennungsmetriken
- Detection Rate: Fähigkeit des Systems, adversariale Angriffe zu erkennen, zu blockieren oder sich davon zu erholen; Prozentsatz der adversarialen Eingaben, die von Abwehrmechanismen korrekt identifiziert wurden
Wissensmetriken
- Wissensextraktion: Genauigkeit beim Abrufen und Präsentieren von Informationen
- Bias-Bewertung: Überprüfung des Vorhandenseins und des Ausmaßes verschiedener Biases in der Wissensbasis
Spezifische Wissens- und Reasoning-Metriken
- Factuality: Genauigkeit der von der KI bereitgestellten Informationen
- Relevance: Ausrichtung der Antworten auf die Abfrage oder den Kontext
- Coherence: Logische Konsistenz und Flüssigkeit der Ausgabe
- Groundedness: Antworten, die durch Daten oder Kontext gestützt sind
- Comprehensiveness: Vollständigkeit der Antworten auf eine Abfrage
- Verbosity/Brevity/Conciseness: Angemessenheit des Detailgrads
- Tonality, Fluency: Natürlichkeit und sprachliche Angemessenheit
- Language Mismatch & Egregious Conversation Detector: Erkennung von themenfremden oder unangemessenen Antworten
- Helpfulness, Harmlessness: Nützlichkeit der Informationen, Abwesenheit von Schaden
- Maliciousness, Criminality, Insensitivity: Erkennung von schädlichen, beleidigenden oder kriminellen Inhalten
Reasoning-Metriken
- Erkundung der Grenzen und Identifizierung von Fehlerpunkten der Reasoning-Fähigkeiten der KI
Metriken für emergentes Verhalten und Robustheit
- Bewertung der Robustheit: Aufrechterhaltung von Leistung und Sicherheit unter verschiedenen Bedingungen
- Kontrolle von emergentem Verhalten
Robustheitsmetriken
- Reaktion auf unerwartete/adversariale/Out-of-Distribution-Eingaben
- Konsistenz bei leicht modifizierten Prompts
- Vorhersehbares Verhalten über ein breites Spektrum von Eingaben
- Identifizierung von Fehlermodi und emergentem Verhalten
- Drift: Überwachung von Leistungs- oder Verhaltensänderungen im Zeitverlauf
- Source Attribution: Genauigkeit bei der Quellenangabe
- Halluzination: Erkennung falscher oder nicht gestützter Informationen
Alignment-Metriken
- Messung der Konsistenz des Systems in Bezug auf Ziele, ethische Richtlinien und Benutzererwartungen
LLM-Alignment-Triade
- Query relevance: Verständnis und Reaktion des Systems auf die Benutzeranfrage
- Context relevance: Bewertung der Nutzung und Relevanz des bereitgestellten Kontexts
- Groundedness: Antworten, die gut durch den Kontext und das Wissen gestützt sind
Spezifische Alignment-Prüfungen
- Context relevance: Ist der bereitgestellte Kontext für die Abfrage relevant?
- Groundedness: Ist die Antwort durch den Kontext gestützt?
- Question/Answer relevance: Ist die Antwort für die Frage relevant?
Bias-Metriken
- Demografische Repräsentation: Bewertung des Vorhandenseins (übermäßig oder mangelhaft) demografischer Gruppen
- Stereotype Bias: Identifizierung des Vorhandenseins von stereotypen Darstellungen oder Annahmen
- Distributional Bias: Fairness bei der Verteilung von Ergebnissen zwischen verschiedenen Gruppen
- Repräsentation vielfältiger subjektiver Meinungen
- Faire Leistungsfähigkeit in mehreren Sprachen
- Umgang mit politisch oder moralisch sensiblen Themen
Fairness-Metriken
- Statistical Parity Difference (SPD): Unterschied bei den positiven Ergebnissen zwischen Mehrheits- und geschützten Klassen
- Disparate Impact (DI): Vergleich des Anteils von Individuen, die ein positives Ergebnis erhalten, zwischen Mehrheits- und Minderheitengruppen
- Equal Opportunity Difference (EOD): Abweichung von der Chancengleichheit
- Average Absolute Odds Difference (AAOD): Durchschnittliche absolute Differenz der Odds zwischen Gruppen
Zusätzliche Bewertungstechniken
- Analyse von Fehlern Typ 1 und Typ 2: Unterscheidung zwischen Auslassungsfehlern (fehlende Informationen) und Begehungsfehlern (falsche Informationen)
- SQL Query Conversion: Bewertung der Fähigkeit der KI, Anfragen in natürlicher Sprache in SQL-Abfragen umzuwandeln
Diese Metriken bieten eine umfassende Bewertung der Leistung, Sicherheit und Ausrichtung von GenAI-Systemen und ermöglichen die Identifizierung kritischer Punkte in verschiedenen Aspekten des KI-Verhaltens und der KI-Fähigkeiten.
Nützliche weiterführende Informationen
Um besser zu verstehen, wie diese Metriken im operativen Kontext des GenAI Red Teamings angewendet werden können, könnten Sie sich für Folgendes interessieren:
- GenAI Red Teaming: Vollständiger Leitfaden zur Sicherheit generativer KI-Systeme
- Operative Techniken des GenAI Red Teamings zum Testen von KI-Systemen
- Risiken und Bedrohungen in GenAI-Systemen: Analyse für das Red Teaming
- Red Teaming-Strategie für LLMs: Roadmap und Implementierung
- Tools und Datensätze für das Red Teaming generativer KI-Systeme
Leave a Reply