Sparse Autoencoders No Pueden Medir el Comportamiento en Tiempo de Generación. Eso No es un Error.
¿Por qué las características SAE de servilismo tienen Cohen's d=9.9 pero la detección de alucinaciones falla? La respuesta resultó ser más profunda que el momento de la medición.
Open post