Tag: Testing for Toxic Output

Überprüfung der Fähigkeit von KI- und LLM-Systemen, toxische, beleidigende, diskriminierende oder ethisch problematische Inhalte zu generieren. Beinhaltet Tests auf Bias, Hassrede, Desinformation, gewalttätige oder unangemessene Inhalte sowie Jailbreaking-Techniken, die Sicherheitsfilter umgehen, um das Modell dazu zu bringen, schädliche oder nicht konforme Ausgaben zu erzeugen.