Sicherheitsaudit für KI-generierte Anwendungen: Was ist enthalten und was nicht

Wer ein Sicherheitsaudit für eine mit KI erstellte App anfordert, steht oft vor zwei konkreten Fragen: Was wird tatsächlich geprüft und was bleibt außerhalb des Prüfumfangs? Die Antwort hängt von der Art der App ab: Eine klassische, KI-generierte Web-App erfordert WAPT, Code-Reviews und Konfigurationsprüfungen; eine App, die LLMs integriert, erfordert zusätzlich Tests für Prompts, RAG, Tool-Calls und Outputs.

Es geht nicht darum, KI als Entwicklungswerkzeug zu bewerten. Es ist viel pragmatischer: Es geht darum zu verstehen, welche Kontrollen erforderlich sind, wenn KI-generierter oder -beschleunigter Code oder Workflows in ein Produkt, einen Geschäftsprozess oder eine Umgebung mit echten Daten gelangen.

[Callforaction-WAPT]

Warum eine funktionierende App nicht zwangsläufig sicher ist

KI-Tools verkürzen die Zeit für die Erstellung von Code, Schnittstellen, Workflows und Konfigurationen. Diese Geschwindigkeit kann jedoch Schritte komprimieren, die Software normalerweise zuverlässig machen: Threat Modeling, Reviews, Geheimnisverwaltung (Secret Management), Rollenprüfungen, Eingabevalidierung, Abhängigkeitsprüfung und manuelle Tests kritischer Pfade.

Eine Demo funktioniert mit einem einzelnen Benutzer, fiktiven Daten und impliziten Berechtigungen. Dieselbe Logik kann versagen, wenn echte Kunden, mehrere Mandanten (Multi-Tenancy), verschiedene Rollen, öffentliche APIs, Integrationen, personenbezogene Daten, Zahlungen oder Automatisierungen mit externen Auswirkungen hinzukommen. Die Sicherheit muss am tatsächlichen Verhalten der App bewertet werden, nicht am Versprechen des Tools, das sie generiert hat.

Was für den Start eines Audits erforderlich ist

Für ein ernsthaftes Audit werden benötigt: Repository oder Build, URLs und Testumgebungen, Definition der Benutzerrollen, kritische Abläufe, Datenschema, externe Integrationen, CI/CD-Pipelines, relevante Cloud-Konfigurationen sowie Angaben dazu, welche Teile mit KI generiert oder modifiziert wurden.

Was ein angemessenes Audit beinhaltet

Ein angemessenes Audit deckt Authentifizierung, Autorisierung, APIs, Datenverwaltung, Geheimnisse, Abhängigkeiten, Konfigurationen, Logging, Fehlerbehandlung, Pipelines und exponierte Oberflächen ab. Wenn die App LLMs verwendet, umfasst es auch Prompt Injection, Output-Handling, Retrieval, Speicher, Tool-Calls und Rate-Limits.

Was nicht enthalten ist

Ein Audit ist keine Zertifizierung des für die Entwicklung verwendeten KI-Tools, garantiert nicht die Abwesenheit zukünftiger Bugs und ersetzt nicht Governance, Monitoring, Patching und kontinuierliche Bereinigung. Ohne Zugriff auf Code, Rollen und eine produktionsnahe Umgebung ist das Audit zwangsläufig lückenhaft.

Hauptrisiken, die geprüft werden müssen

Mehrdeutiger Umfang zwischen WAPT, Code-Review, VA und KI-Tests: Vorab definieren, welche Oberflächen in den Test einbezogen werden und welche nicht.
Nicht produktionsnahe Testumgebung: Fiktive Daten und vereinfachte Berechtigungen verbergen echte Schwachstellen.
Dem Tester nicht bereitgestellte Rollen und Daten: Ohne Zugriff auf die tatsächlichen Rollen bleiben die Autorisierungsprüfungen unvollständig.
Generierter Code, der in Diffs nicht nachverfolgt wird: KI-generierte Teile, die nicht manuell überprüft wurden, sind ein blinder Fleck.
Ignorierte LLM-Risiken bei modellbasierten Apps: Prompt Injection, unkontrollierte Tool-Calls und nicht validierte Outputs sind konkrete Angriffsvektoren.
Klassische Risiken werden ignoriert, weil die App “KI” ist: Authentifizierung, Autorisierung und Geheimnisverwaltung bleiben kritisch, unabhängig davon, wie der Code geschrieben wurde.
Ergebnisse ohne Priorisierung der Behebung: Ein Bericht ohne Unterscheidung zwischen blockierenden Befunden und Restrisiko unterstützt keine operativen Entscheidungen.

Die richtige Kombination von Kontrollen hängt von der Auswirkung ab, nicht vom Namen des Tools. Eine exponierte App erfordert manuelle Anwendungstests; eine kritische Codeänderung erfordert ein Review; ein interner Workflow erfordert die Kontrolle von Berechtigungen und Zugangsdaten; eine agentische App erfordert Tests von Prompts, Tools und Outputs.

Mindestkontrollen vor dem Go-Live

Benutzer, Rollen, echte Daten, Integrationen, Umgebungen und Service-Owner abbilden.
Identifizieren, welche Teile mit KI generiert oder modifiziert wurden und wer diese überprüft hat.
Serverseitige Autorisierungen, Mandantentrennung und administrative Funktionen verifizieren.
Nach Geheimnissen in Code, Prompts, Logs, Umgebungsvariablen, Builds und Repository-Historie suchen.
Abhängigkeiten, Lizenzen, Pakete, Vorlagen, Plugins und generierte Komponenten prüfen.
Feindliche Eingaben, Fehlerbehandlung, Logging, Rate-Limits und unerwartete Pfade testen.
Blockierende Fixes, geplante Behebungen und bewusst akzeptiertes Restrisiko trennen.
Wiederholung des Tests oder Retests nach Korrekturen, die kritische Abläufe betreffen.

Wann eine unabhängige Überprüfung erforderlich ist

Eine unabhängige Überprüfung ist erforderlich, wenn die App oder der Workflow echte Daten, externe Benutzer, Rollen, APIs, Unternehmensintegrationen, Zahlungen, Speicher, automatische Workflows oder kritischen, mit KI generierten Code verarbeitet. Sie ist auch dann erforderlich, wenn das Team nicht nachweisen kann, welche Teile überprüft wurden und welche Kontrollen Regressionen oder Missbrauch verhindern.

Der von ISGroup in diesem Fall empfohlene Umfang umfasst: Web Application Penetration Testing, Code Review, Vulnerability Assessment und für Apps mit LLMs AI Application Testing. Das beste Review liefert reproduzierbare Befunde, Prioritäten für die Behebung, Angaben zum Restrisiko und bei Bedarf Retests nach den Korrekturen.

Operative Fragen für Gründer, CTOs und Sicherheitsteams

Welche echten Daten gelangen in das System und wo werden sie gespeichert, protokolliert oder gesendet?
Welche Rollen existieren und welche Aktionen werden serverseitig blockiert, nicht nur in der Benutzeroberfläche?
Welche Geheimnisse, Token, Webhooks oder Zugangsdaten würden den Zugriff auf kritische Systeme ermöglichen?
Welche Teile wurden von der KI generiert oder modifiziert und welche wurden von einer kompetenten Person überprüft?
Welche Tests decken Missbrauch, Fehler, verschiedene Rollen und verschiedene Mandanten ab, nicht nur den Idealfall?
Welche Nachweise können Kunden, Auditoren, dem Einkauf oder der Geschäftsleitung vorgelegt werden?

Nützliche weiterführende Informationen

Penetrationstest für SaaS und KI-Apps: Wie man einen Test für SaaS-Produkte oder Anwendungen einrichtet, die KI-Komponenten integrieren, mit Fokus auf Umfang und Methodik.
Sicherheitskontrollen für KI-Apps vor dem Go-Live: Operative Liste der Kontrollen, die vor der Inbetriebnahme einer mit KI entwickelten App abgeschlossen sein müssen.
AI Application Testing: Vertiefung der spezifischen Tests für Anwendungen, die LLMs, Agenten und autonome Workflows integrieren.

FAQ

Was ist der Unterschied zwischen Audit, WAPT und Code-Review?
Der WAPT überprüft das Verhalten der exponierten App durch Simulation eines externen Angreifers. Das Code-Review analysiert den Quellcode auf logische Schwachstellen und schlechte Praktiken. Das Audit kombiniert Kontrollen, die dem Umfang angemessen sind, und kann Konfigurationen, Prozesse und KI-spezifische Risiken umfassen.
Wann ist AI Application Testing erforderlich?
Wenn die App LLMs, RAG, Agenten, Tool-Calling, Speicher oder autonome Workflows integriert. Wenn KI nur zum Schreiben von Code verwendet wurde, bleiben WAPT und Code-Review in der Regel die vorrangigen Kontrollen.
Welche Materialien muss ich vor dem Audit vorbereiten?
URLs, Rollendefinitionen, kritische Abläufe, Repository oder Build, Architektur, Integrationen, Testdaten, CI/CD-Pipeline und eine Liste der mit KI generierten oder modifizierten Teile.
Wie groß sollte der Umfang sein?
Groß genug, um das abzudecken, was echte Auswirkungen haben kann: Daten, Benutzer, Rollen, APIs, administrative Funktionen, Speicher, Zahlungen, Integrationen und Deployments.
Reicht der Bericht aus, um online zu gehen?
Nur, wenn die blockierenden Befunde korrigiert oder bewusst akzeptiert wurden. Die endgültige Entscheidung muss eine Bewertung der abgeschlossenen Behebungen und des Restrisikos beinhalten.

Quellen und Referenzen

Wenn Sie kurz davor stehen, eine mit KI entwickelte App oder einen Workflow online zu bringen, kann ISGroup Ihnen bei der Auswahl der richtigen Kontrolle helfen: Anwendungstest, Code-Review, Architektur-Assessment oder gezielte Überprüfung KI-spezifischer Risiken.

[Callforaction-WAPT-Footer]

ISGroup Cybersicherheitsberatung

Sicherheitsaudit für KI-generierte Apps: Was ist enthalten und was nicht