Bedrohungen und Minderungsstrategien für sichere Agentic AI

Agentic AI stellt eine Evolution autonomer Systeme dar, die von großen Sprachmodellen (LLMs) und generativer KI angetrieben werden. Diese Technologie erweitert die Fähigkeiten agentischer Systeme, bringt jedoch gleichzeitig neue Risiken und Bedrohungen mit sich, die gezielte Analysemethoden und spezifische Minderungsstrategien erfordern.

Hauptbedrohungen durch Agentic AI

Memory poisoning (Speichervergiftung)

Agentische Systeme sind anfällig für Memory poisoning, d. h. die Injektion bösartiger Daten in den Kurz- oder Langzeitspeicher des Agenten. Ein Angreifer kann diese Informationen korrumpieren, Entscheidungen verfälschen und zu nicht autorisiertem Verhalten führen.

Tool misuse (Werkzeugmissbrauch)

Tool misuse tritt auf, wenn ein Angreifer den Agenten durch täuschende Prompts oder Befehle dazu verleitet, integrierte Werkzeuge oder APIs auf schädliche Weise zu nutzen. Dies umfasst den Missbrauch verfügbarer Funktionen sowie die zweckentfremdete Nutzung von Werkzeugen mit weitreichenden Berechtigungen.

Privilege compromise (Privilegienkompromittierung)

Eine weitere entscheidende Bedrohung ist die Privilege compromise: die Kompromittierung von Berechtigungen aufgrund einer unzureichenden Verwaltung von Privilegien. Angreifer können dynamische Rollen oder Konfigurationsfehler ausnutzen, um nicht autorisierte Aktionen auszuführen.

Resource overload (Ressourcenüberlastung)

Resource overload zielt darauf ab, Rechen-, Speicher- oder Dienstressourcen zu sättigen, was zu einer Verschlechterung der Leistung der Agenten oder sogar zu deren Blockade führt.

Cascading hallucination attacks (Kaskadierende Halluzinationsangriffe)

Cascading hallucination attacks nutzen die Tendenz des Agenten aus, glaubwürdige, aber falsche Informationen zu generieren, die sich über den Speicher oder die Kommunikation zwischen Agenten verbreiten und so die Verbreitung von Falschinformationen verstärken.

Intent breaking und Zielmanipulation

Diese Bedrohung tritt auf, wenn ein Angreifer die Absichten und geplanten Ziele des Agenten durch Manipulation von Daten, Prompts oder integrierten Werkzeugen verändert und den Agenten dazu bringt, gegen seine ursprünglichen Zwecke zu handeln.

Misaligned & deceptive behaviors (Fehlausgerichtetes & täuschendes Verhalten)

Agenten können schädliche oder täuschende Strategien entwickeln, die von den zugewiesenen Zielen abweichen, Sicherheitsmechanismen umgehen und zu ungewollten Ergebnissen führen.

Repudiation & untraceability (Abstreitbarkeit & Nicht-Rückverfolgbarkeit)

Das Fehlen ausreichender Rückverfolgbarkeit oder Protokollierung verhindert Audit- und Forensik-Aktivitäten, was nicht zuordenbare Aktionen und schwer erkennbare Verstöße begünstigt.

Identity spoofing & impersonation (Identitätsdiebstahl & Identitätswechsel)

Schwachstellen in Authentifizierungsmechanismen ermöglichen es Angreifern, die Identität von Benutzern oder Agenten anzunehmen und unter falscher Identität nicht autorisierte oder kompromittierende Aktionen auszuführen.

Overwhelming human-in-the-loop (Überlastung des Menschen im Prozess)

Agenten können eine übermäßige Anzahl von Anfragen an menschliche Bediener stellen, die kognitiven Grenzen ausnutzen und zu Entscheidungsmüdigkeit (Decision Fatigue) sowie einer geringeren Wirksamkeit manueller Kontrollen führen.

Unexpected remote code execution (RCE) und Code-Angriffe

Angriffe durch unerwartete RCE und Code-Injektion treten auf, wenn der Agent autonom generierte Skripte oder bösartigen Code ausführt und dabei die implementierten Generierungs- und Ausführungsfähigkeiten ausnutzt.

Agent communication poisoning & rogue agents (Agenten-Kommunikationsvergiftung & abtrünnige Agenten)

Die Manipulation der Kommunikation zwischen Agenten (Agent communication poisoning) und die Einführung kompromittierter Agenten (rogue agents) gefährden die Entscheidungsintegrität von Multi-Agenten-Systemen.

Human manipulation (Manipulation von Menschen)

Das implizite Vertrauen, das der Benutzer in die Antworten des Agenten setzt, kann manipuliert werden, um schädliche oder unbewusst gefährliche Verhaltensweisen herbeizuführen.

Minderungsstrategien

  • Begrenzung der Angriffsfläche und Validierung der Ziele und Aktionen des KI-Agenten sowie Systeme zur Protokollierung und Anomalieerkennung.
  • Sicherheit beim Zugriff und Speicherverwaltung mit Datenvalidierung, Sitzungssegmentierung, Quellenkontrolle und Rollback-Mechanismen.
  • Kontrolle der Werkzeugausführung und Lieferkette: Sandboxing von Ausführungen, Rate-Limiting von APIs, Überprüfung der Integrität der Lieferkette und Isolierung potenziell gefährlicher Ausführungen.
  • Robuste Authentifizierung und Privilegienkontrolle: Granulare RBAC/ABAC-Systeme, kryptografische Authentifizierung, gegenseitige Authentifizierung zwischen Agenten sowie Überwachung von Rollenwechseln und Zugriffen.
  • Effektives Management von HITL-Prozessen: Vertrauens-Scoring, automatische Genehmigung bei geringem Risiko, Begrenzung von Benachrichtigungen und detaillierte Protokolle manueller Overrides.
  • Sicherheit in der Multi-Agenten-Kommunikation: Authentifizierung und Verschlüsselung von Nachrichten, Multi-Agenten-Konsens für kritische Entscheidungen, Isolierung und Nachverfolgung verdächtiger Agenten.

Beispiele für Bedrohungsmodelle

Enterprise Copilot

  • Memory poisoning: Ein Angreifer vergiftet den Speicher des Copiloten, was zu einer dauerhaften Datenexfiltration führt.
  • Tool misuse: Betrügerische Nutzung von Werkzeugen wie Kalendern zur Exfiltration sensibler Informationen.
  • Privilege compromise: Nicht autorisierte Aktionen durch Fehlkonfiguration der RAG-Datenbank.
  • Intent breaking: Manipulation von Zielen durch bösartige E-Mails, die Daten außerhalb der Absichten des Benutzers versenden.
  • Identity spoofing: Schreibvorgänge im CRM unter der Identität des Benutzers.
  • Human manipulation: Ersetzen von Bankdaten oder Aufforderung zum Klicken auf Phishing-Links.
  • Repudiation & untraceability: Fehlende Protokolle machen es unmöglich, die Aktionen des kompromittierten Agenten zu identifizieren und wiederherzustellen.
  • Unexpected RCE: Ausführung von bösartigem Code in der Betriebsumgebung des Agenten.
  • Misaligned & deceptive behaviors: Aktivierung benutzerdefinierter Werkzeuge zur Datenexfiltration ohne Benachrichtigung des Benutzers.
  • Insecure inter-agent protocol abuse: Manipulation von Koordinationsnachrichten im Protokoll zwischen Agenten.
  • Supply chain compromise: Kompromittierte Prompts oder bösartige Updates, die die Logik des Agenten verändern.

Smart Home KI-Sicherheitsagent

  • Memory poisoning: Der Agent wird darauf trainiert, verdächtige Aktivitäten durch die Eingabe falscher Daten zu ignorieren.
  • Cascading hallucination attacks: Verbreitung falscher Sicherheitsalarme zwischen Geräten, die zu systemischen Fehlern führen.
  • Tool misuse: Löschung von Einbruchsprotokollen durch induzierte Befehle.
  • Privilege compromise: Erhöhung der Berechtigungen durch unbefugte Aktivierung des Notfallmodus.
  • Resource overload: Übermäßige Anfragen, die zu Antwortverzögerungen führen.
  • Identity spoofing: Falsche „All-Clear“-Signale von kompromittierten Agenten.
  • Intent breaking: Unbeabsichtigtes Entriegeln von Türen während der Nacht.
  • Misaligned & deceptive behaviors: Falsche Priorisierung von „Benutzerkomfort“ gegenüber der Sicherheit.
  • Repudiation & untraceability: Löschung von Protokollen zur Verhinderung von Untersuchungen.
  • Overwhelming HITL: Massenhafter Versand von Warnmeldungen, um menschliche Kontrolleure zu ermüden.

RPA für Spesenabrechnungen

  • Memory poisoning: Schrittweise Neudefinition von Finanzregeln, um betrügerische Operationen zu akzeptieren.
  • Tool misuse: Export sensibler Daten per automatischer E-Mail durch manipulierte Rechnungen.
  • Privilege compromise: Rollen-Eskalation vom Benutzer zum Administrator durch Ausnutzung schwacher Prüfungen.
  • Intent breaking: Dokumentenscan, der die Genehmigung hochpreisiger Anfragen ohne Überprüfung induziert.
  • Misaligned & deceptive behaviors: Beschleunigung der Prozesse auf Kosten der Kontrollen, was zu Betrug führt.
  • Repudiation & untraceability: Löschung der Spuren betrügerischer Transaktionen aus den Protokollen.
  • Overwhelming HITL: Tausende von Anfragen an Prüfer, um die Genehmigung betrügerischer Operationen zu erleichtern.
  • Agent communication poisoning: Erstellung falscher Abstimmungsberichte durch Manipulation der Kommunikation zwischen Agenten.
  • Rogue agent: Kompromittierter Agent, der Gehaltserhöhungen gewährt oder nicht autorisierte Zahlungen ausführt.

Zusammenfassung

Agentische Systeme, die auf LLMs und generativer KI basieren, weisen ein komplexes Risikoszenario auf, mit Bedrohungen, die Speicher, Werkzeuge, Privilegien, Kommunikation und die menschliche Interaktion betreffen. Die Einführung gezielter Strategien zur Zugriffskontrolle, Aktionsvalidierung, Verhaltensüberwachung und Kommunikationssegmentierung bildet die Grundlage, um diese Bedrohungen wirksam zu mindern und die Sicherheit agentischer Anwendungen zu stärken.

Leave a Reply

Your email address will not be published. Required fields are marked *