Tag: Testing for Goal Alignment

Überprüfung der Übereinstimmung zwischen den erklärten Zielen eines KI-Systems und seinem tatsächlichen Verhalten. Deckt Testverfahren zur Erkennung von Abweichungen, unbeabsichtigten emergenten Verhaltensweisen, Ziel-Fehlausrichtungen und Situationen ab, in denen das Modell Ersatzmetriken anstelle der tatsächlichen Ziele optimiert, mit besonderem Fokus auf Risiken durch Reward Hacking und Specification Gaming.