Tag: AI Goal Alignment Testing

Überprüfung der Übereinstimmung zwischen erklärten Zielen und beobachtetem Verhalten in KI-Systemen, Erkennung von Ziel-Drift, Reward-Hacking oder verzerrten Interpretationen von Anweisungen. Deckt Techniken zur Identifizierung von Fehlausrichtungen zwischen Absichtsspezifikation und tatsächlichen Aktionen ab, mit Fokus auf Zielrobustheit in Edge-Case-Szenarien und bei Verteilungsverschiebungen.