Series

Reading the Residual Stream

2 posts

Part 1 · 7 Apr 2026 · 7 min de lectura

Sparse Autoencoders No Pueden Medir el Comportamiento en Tiempo de Generación. Eso No es un Error.

¿Por qué las características SAE de servilismo tienen Cohen's d=9.9 pero la detección de alucinaciones falla? La respuesta resultó ser más profunda que el momento de la medición.

ai interpretability sparse-autoencoders

Open post

Part 2 · 11 Apr 2026 · 9 min de lectura

Capital-of no es una sola característica SAE. Así que construí un bucle de mutación para averiguar qué es.

Las características de SAE no pueden aislar relaciones en Gemma-2-2B. Construí un bucle de mutación‑selección que sí puede. El cuello de botella era la tokenización.

ai interpretability llm sparse-autoencoders

Open post

Reading the Residual Stream

Sparse Autoencoders No Pueden Medir el Comportamiento en Tiempo de Generación. Eso No es un Error.

Capital-of no es una sola característica SAE. Así que construí un bucle de mutación para averiguar qué es.

00 / El Agente

La caja de chat que vive en el blog.