Interpretability and Evals

Attribution graphs, linear probes, capability evaluations, propensity evaluations, and alignment auditing as tools for making model behavior legible.

Attribution graphs, probes, capability evals, and alignment auditing.

Jun 2026 · Note

To be continued.