GenAI Red Teaming Metriken: Bewertung von Sicherheitsleistung und KI-Alignment

Ein strukturierter Satz an Metriken ermöglicht die Bewertung der Leistung, Sicherheit und Ausrichtung eines GenAI-Systems anhand verschiedener grundlegender Kategorien.

Um tiefer in den methodischen Kontext und die operativen Techniken einzutauchen, lesen Sie den vollständigen Leitfaden zum GenAI Red Teaming.

Governance- und Analytics-Metriken für AI Red Teams

Diese Metriken kommunizieren den Gesamtwert des AI Red Teams für das Unternehmen und überwachen den Fortschritt. Sie umfassen Statistiken zu Anwendungen und Systemen, Nutzungsanalysen und qualitative Daten aus verschiedenen Gruppen. Einige Beispiele sind:

  • Anzahl der wöchentlich abgeschlossenen Tests nach Thema (adversarial attacks, Bias, Toxizität, unangemessene Konversationen, Halluzinationen usw.)
  • Analyse positiver und negativer Prompts
  • Analysen negativer Prompts, gruppiert nach Typ (HAP, Bias, unangemessene Konversationen usw.)
  • Anzahl der Guardrail-Richtlinien, aggregiert und neu
  • Anzahl der KI-Modelle und Parameter unter Red Teaming
  • Volumen der Prompt-Analysen
  • Kumulative Anzahl der verarbeiteten Token
  • Offline-Metriken wie GenAI Red Teaming-Statistiken und Prompt-Analyse-Statistiken

Metriken für Adversarial Attacks

Robustheitsmetriken

  • Attack Success Rate (ASR) oder Jailbreak Success Rate (JSR): Prozentsatz der adversarialen Eingaben, die erfolgreich Schwachstellen ausnutzen oder unerwünschtes Verhalten provozieren

Erkennungsmetriken

  • Detection Rate: Fähigkeit des Systems, adversariale Angriffe zu erkennen, zu blockieren oder sich davon zu erholen; Prozentsatz der adversarialen Eingaben, die von Abwehrmechanismen korrekt identifiziert wurden

Wissensmetriken

  • Wissensextraktion: Genauigkeit beim Abrufen und Präsentieren von Informationen
  • Bias-Bewertung: Überprüfung des Vorhandenseins und des Ausmaßes verschiedener Biases in der Wissensbasis

Spezifische Wissens- und Reasoning-Metriken

  • Factuality: Genauigkeit der von der KI bereitgestellten Informationen
  • Relevance: Ausrichtung der Antworten auf die Abfrage oder den Kontext
  • Coherence: Logische Konsistenz und Flüssigkeit der Ausgabe
  • Groundedness: Antworten, die durch Daten oder Kontext gestützt sind
  • Comprehensiveness: Vollständigkeit der Antworten auf eine Abfrage
  • Verbosity/Brevity/Conciseness: Angemessenheit des Detailgrads
  • Tonality, Fluency: Natürlichkeit und sprachliche Angemessenheit
  • Language Mismatch & Egregious Conversation Detector: Erkennung von themenfremden oder unangemessenen Antworten
  • Helpfulness, Harmlessness: Nützlichkeit der Informationen, Abwesenheit von Schaden
  • Maliciousness, Criminality, Insensitivity: Erkennung von schädlichen, beleidigenden oder kriminellen Inhalten

Reasoning-Metriken

  • Erkundung der Grenzen und Identifizierung von Fehlerpunkten der Reasoning-Fähigkeiten der KI

Metriken für emergentes Verhalten und Robustheit

  • Bewertung der Robustheit: Aufrechterhaltung von Leistung und Sicherheit unter verschiedenen Bedingungen
  • Kontrolle von emergentem Verhalten

Robustheitsmetriken

  • Reaktion auf unerwartete/adversariale/Out-of-Distribution-Eingaben
  • Konsistenz bei leicht modifizierten Prompts
  • Vorhersehbares Verhalten über ein breites Spektrum von Eingaben
  • Identifizierung von Fehlermodi und emergentem Verhalten
  • Drift: Überwachung von Leistungs- oder Verhaltensänderungen im Zeitverlauf
  • Source Attribution: Genauigkeit bei der Quellenangabe
  • Halluzination: Erkennung falscher oder nicht gestützter Informationen

Alignment-Metriken

  • Messung der Konsistenz des Systems in Bezug auf Ziele, ethische Richtlinien und Benutzererwartungen

LLM-Alignment-Triade

  • Query relevance: Verständnis und Reaktion des Systems auf die Benutzeranfrage
  • Context relevance: Bewertung der Nutzung und Relevanz des bereitgestellten Kontexts
  • Groundedness: Antworten, die gut durch den Kontext und das Wissen gestützt sind

Spezifische Alignment-Prüfungen

  • Context relevance: Ist der bereitgestellte Kontext für die Abfrage relevant?
  • Groundedness: Ist die Antwort durch den Kontext gestützt?
  • Question/Answer relevance: Ist die Antwort für die Frage relevant?

Bias-Metriken

  • Demografische Repräsentation: Bewertung des Vorhandenseins (übermäßig oder mangelhaft) demografischer Gruppen
  • Stereotype Bias: Identifizierung des Vorhandenseins von stereotypen Darstellungen oder Annahmen
  • Distributional Bias: Fairness bei der Verteilung von Ergebnissen zwischen verschiedenen Gruppen
  • Repräsentation vielfältiger subjektiver Meinungen
  • Faire Leistungsfähigkeit in mehreren Sprachen
  • Umgang mit politisch oder moralisch sensiblen Themen

Fairness-Metriken

  • Statistical Parity Difference (SPD): Unterschied bei den positiven Ergebnissen zwischen Mehrheits- und geschützten Klassen
  • Disparate Impact (DI): Vergleich des Anteils von Individuen, die ein positives Ergebnis erhalten, zwischen Mehrheits- und Minderheitengruppen
  • Equal Opportunity Difference (EOD): Abweichung von der Chancengleichheit
  • Average Absolute Odds Difference (AAOD): Durchschnittliche absolute Differenz der Odds zwischen Gruppen

Zusätzliche Bewertungstechniken

  • Analyse von Fehlern Typ 1 und Typ 2: Unterscheidung zwischen Auslassungsfehlern (fehlende Informationen) und Begehungsfehlern (falsche Informationen)
  • SQL Query Conversion: Bewertung der Fähigkeit der KI, Anfragen in natürlicher Sprache in SQL-Abfragen umzuwandeln

Diese Metriken bieten eine umfassende Bewertung der Leistung, Sicherheit und Ausrichtung von GenAI-Systemen und ermöglichen die Identifizierung kritischer Punkte in verschiedenen Aspekten des KI-Verhaltens und der KI-Fähigkeiten.

Nützliche weiterführende Informationen

Um besser zu verstehen, wie diese Metriken im operativen Kontext des GenAI Red Teamings angewendet werden können, könnten Sie sich für Folgendes interessieren:

Leave a Reply

Your email address will not be published. Required fields are marked *