Tag: Adversarial Prompt Engineering
Techniken zur Manipulation von Prompts, um Sprachmodelle und generative KI-Systeme dazu zu bringen, unbeabsichtigte Ausgaben zu erzeugen, Sicherheitsfilter zu umgehen oder sensible Informationen preiszugeben. Beinhaltet Prompt Injection, Jailbreaking, Kontextmanipulation und Umgehungsstrategien gegen in Large Language Models implementierte Guardrails.