Tools und Datensätze für Red Teaming bei LLMs und GenAI

Anhang B des OWASP-Projekts „Red Teaming LLM“ enthält eine Liste von Tools und Datensätzen, die auf der kollektiven Erfahrung der beteiligten Betreiber und Autoren entwickelt und ausgewählt wurden. Der Katalog umfasst Ressourcen, die für das Red Teaming von GenAI und LLMs konzipiert sind. Die Liste ist nicht erschöpfend und wird laufend um neue, ausgewählte Lösungen ergänzt. Organisationen, die spezifische Tools für das Red Teaming von GenAI in den Katalog aufnehmen möchten, sollten das OWASP-Team kontaktieren, um eine Aufnahme vorzuschlagen. Die Verwendung von Tools aus öffentlichen Repositories birgt Risiken: Es liegt in der Verantwortung der Benutzer, deren Sicherheit vor der Implementierung zu bewerten.

Für einen vollständigen Überblick über die Methoden und das operative Framework lesen Sie den Leitfaden zum GenAI Red Teaming.

Tools für LLM- und GenAI-Red-Teaming

ASCII Smuggler: Tool zum Verstecken von Inhalten in Prompts.
https://embracethered.com/blog/ascii-smuggler.html (Open Source)
Adversarial Attacks and Defences in Machine Learning (AAD) Framework: Python-Framework zur Verteidigung von ML-Modellen gegen gegnerische Beispiele (Adversarial Examples).
https://github.com/changx03/adversarial_attack_defence (Quellcode verfügbar)
Adversarial Robustness Toolbox (ART): Python-Bibliothek für ML-Sicherheit.
https://github.com/Trusted-AI/adversarial-robustness-toolbox (MIT-Lizenz)
Advertorch: Python-Toolbox für die Forschung zu Robustheit und Adversarial Attacks in PyTorch.
https://github.com/BorealisAI/advertorch (GNU LGPL v3.0)
CleverHans: Python-Bibliothek zum Testen der Anfälligkeit von ML-Systemen gegenüber Adversarial Examples.
https://github.com/cleverhans-lab/cleverhans (MIT-Lizenz)
CyberSecEval: Benchmark zur Quantifizierung von Cybersicherheitsrisiken und -fähigkeiten in LLMs.
https://ai.meta.com/research/publications/cyberseceval-3-advancing-the-evaluation-of-cybersecurity-risks-and-capabilities-in-large-language-models/ (MIT-Lizenz)
DeepEval: LLM-Bewertung, Unit-Tests und Metriken für mehrere Ausgaben.
https://github.com/confident-ai/deepeval (Apache-Lizenz 2.0)
Deep-pwning: Leichtgewichtiges Framework zur Bewertung der Robustheit von ML-Modellen gegenüber motivierten Angreifern.
https://github.com/cchio/deep-pwning (MIT-Lizenz)
Dioptra: Plattform zum Testen der Zuverlässigkeit von KI-Systemen.
https://pages.nist.gov/dioptra/index.html (CC BY 4.0)
Foolbox: Tool für Adversarial Attacks und ML-Robustheits-Benchmarking in PyTorch, TensorFlow und JAX.
https://github.com/bethgelab/foolbox (MIT-Lizenz)
Garak: Kit für Red Teaming und Assessment von GenAI.
https://garak.ai/ (Apache-Lizenz 2.0)

https://github.com/NVIDIA/garak
Giskard: Test-Suite für ML und LLMs.
https://www.giskard.ai/ (Apache-Lizenz 2.0)
Generative Offensive Agent Tester (GOAT): Automatisiertes System, das gegnerische Konversationen simuliert, um Schwachstellen in LLMs zu identifizieren.
https://arxiv.org/abs/2410.01606
Gymnasium: Python-Bibliothek mit Standard-API für Tests und Entwicklung von Reinforcement Learning.
https://github.com/Farama-Foundation/Gymnasium (MIT-Lizenz)
Harmbench: Skalierbares Open-Source-Framework zur Bewertung automatisierter Red-Teaming-Methoden sowie Angriffen auf und Verteidigungen von LLMs.
https://github.com/centerforaisafety/HarmBench (MIT-Lizenz)
HouYi: Framework für Prompt-Injection-Angriffe auf LLM-integrierte Anwendungen.
https://github.com/LLMSecurity/HouYi?tab=readme-ov-file (Apache-Lizenz 2.0)
JailbreakingLLMs – PAIR: Jailbreak-Tests für LLMs mit Prompt Automatic Iterative Refinement.
https://github.com/patrickrchao/JailbreakingLLMs (MIT-Lizenz)
Llamator: Pentesting für RAG-Anwendungen.
https://github.com/RomiconEZ/LLaMator (CC)
LLM Attacks: Automatisierung bei der Erstellung von Adversarial Attacks auf LLMs.
https://llm-attacks.org/ (MIT-Lizenz)
LLM Canary: Benchmarking und Scoring für LLMs. (Apache-Lizenz 2.0)
Modelscan: Erkennung von Model-Serialization-Angriffen.
https://github.com/protectai/modelscan (Apache-Lizenz 2.0)
MoonShot: Modulares Tool zur Bewertung von LLM-Anwendungen.
https://github.com/aiverify-foundation/moonshot (Apache Software License 2)
Prompt Fuzzer: Tool für Sicherheitstests von GenAI-Prompts gegen dynamische LLM-Angriffe.
https://github.com/prompt-security/ps-fuzz (MIT-Lizenz)
Promptfoo: Red Teaming, Penetration Testing und Schwachstellen-Scanning für LLMs.
https://github.com/promptfoo/promptfoo (MIT-Lizenz)
ps-fuzz: Interaktives Tool für die Sicherheit von GenAI-Prompts.
https://github.com/prompt-security/ps-fuzz (MIT-Lizenz)
PromptInject: Quantitative Analyse der LLM-Robustheit gegenüber gegnerischen Prompts.
https://github.com/agencyenterprise/PromptInject (MIT-Lizenz)
Promptmap: Prompt Injection auf ChatGPT-Instanzen.
https://github.com/utkusen/promptmap (MIT-Lizenz)
Python Risk Identification Toolkit (PyRIT): Microsoft-Bibliothek zur Bewertung der Robustheit von LLM-Endpunkten in Bezug auf Halluzinationen, Bias und verbotene Inhalte.
https://github.com/Azure/PyRIT (MIT-Lizenz)
SplxAI: Automatisiertes Red Teaming für Conversational AI.
https://splx.ai/
StrongREJECT: Jailbreak-Benchmark mit Bewertungsmethodik.
https://github.com/alexandrasouly/strongreject,
https://arxiv.org/abs/2402.10260 (MIT-Lizenz)

Datensätze für GenAI-Red-Teaming

AdvBench: Universelle und übertragbare Adversarial Attacks auf ausgerichtete Sprachmodelle.
https://github.com/llm-attacks/llm-attacks (Open Source)
BBQ Bias Benchmark for Question Answering: Bias-Benchmark für QA-Aufgaben.
https://github.com/nyu-mll/BBQ (Open Source)
Bot Adversarial Dialogue Dataset: Datensatz mit gegnerischen Dialogen für Bots.
https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/bot_adversarial_dialogue (Open Source)
HarmBench: Standard-Framework für automatisiertes Red Teaming und robuste Verweigerung (Robust Refusal).
https://github.com/centerforaisafety/HarmBench (Open Source)
JailbreakBench: Offener Benchmark für die Robustheit von LLMs gegenüber Jailbreaking.
https://github.com/JailbreakBench/jailbreakbench (Open Source)
HAP: Effiziente Modelle zur Erkennung von Hassrede, Missbrauch und Obszönitäten.
https://arxiv.org/abs/2402.05624 (Open Source)

Zusätzliche Ressourcen für KI-Sicherheit

Das OWASP-Projekt hebt zudem die „AI Security Solutions Landscape“ hervor, eine Ressource, die sowohl traditionelle als auch neue Sicherheitskontrollen sammelt, um die in den OWASP Top 10 abgebildeten Risiken für LLMs und generative KI anzugehen.

Nützliche weiterführende Informationen

Um mehr über die operativen Methoden und Referenz-Frameworks für das Red Teaming von GenAI-Systemen zu erfahren, lesen Sie diese Artikel:

ISGroup Cybersicherheitsberatung

Tools und Datensätze für Red Teaming bei LLMs und GenAI

Tools für LLM- und GenAI-Red-Teaming

Datensätze für GenAI-Red-Teaming

Zusätzliche Ressourcen für KI-Sicherheit

Nützliche weiterführende Informationen

Leave a Reply Cancel reply