Sparse Autoencoders können das Verhalten zur Generierungszeit nicht messen. Das ist kein Fehler.
Warum Sycophancy‑SAE‑Merkmale Cohen's d = 9,9 haben, aber die Halluzinationserkennung scheitert. Die Antwort war tiefer als das Messzeitpunkt‑Problem.
Open post