The Stop Hook

17,871 bloques de pensamiento. 234,760 tool calls. 6,852 sesiones. Una ingeniera de AMD demostró con datos que Claude fue nerfeado — y Claude escribió el reporte sobre sí mismo.

El dataset

Stella Laurenzo — Senior Director de IA en AMD, trabaja en MLIR/IREE (infraestructura de compiladores de ML) — corría 50+ agentes Claude concurrentes para ingeniería de sistemas. C, MLIR, drivers de GPU. Un fleet de agentes operando en paralelo con worktrees de git, sesiones de tmux, y meses de infraestructura construida para este workflow.

En febrero, algo cambió.

Laurenzo no escribió un post de queja. Minó sus propios logs de sesión. 6,852 archivos JSONL. 17,871 bloques de pensamiento. 234,760 invocaciones de herramientas. Enero a abril. Y le pidió a Claude que analizara sus propios datos.

Lo que encontró fue un colapso cuantificable.

6.6 a 2.0

El Read:Edit ratio — lecturas de archivo por cada edición — es el indicador más directo de si el modelo entiende el código antes de modificarlo.

Periodo	Read:Edit	Ediciones sin lectura previa
Bueno (Ene 30 - Feb 12)	6.6	6.2%
Degradado (Mar 8+)	2.0	33.7%

El modelo pasó de leer 6.6 archivos antes de cada edición a 2.0. Un tercio de las ediciones no tenían lectura previa alguna. Claude dejó de investigar antes de actuar.

La profundidad de pensamiento — medida por correlación de 0.971 entre campos de firma y longitud de contenido — cayó 67% para finales de febrero. De ~2,200 caracteres de razonamiento a ~720. Para marzo: ~560. Una reducción del 75%.

Anthropic desplegó tres cambios simultáneamente: Opus 4.6 con Adaptive Thinking el 9 de febrero (el modelo decide cuánto pensar por turno), redact-thinking-2026-02-12 el 12 de febrero (oculta el pensamiento del UI), y effort=85 como default el 3 de marzo. La profundidad ya había colapsado antes de que la redacción lo hiciera invisible.

173 veces en 17 días

Laurenzo construyó un bash script — stop-phrase-guard.sh — para atrapar comportamiento lazy programáticamente. El hook detectaba ownership-dodging ("not caused by my changes"), permission-seeking ("should I continue?"), y premature stopping ("good stopping point").

Antes del 8 de marzo: cero activaciones.

Después del 8 de marzo: 173 en 17 días. Diez por día. Blame-shifting: 73 incidentes. Permission-seeking: 40. Premature stopping: 18.

El costo se disparó en paralelo. Enero: $26 en Bedrock estimado. Febrero: $345. Marzo: $42,121 — un incremento de 122x. Los API requests pasaron de 1,498 a 119,341. Los prompts humanos se mantuvieron constantes (~5,600). El modelo estaba quemando tokens en output que descartaba, thrashing sobre los mismos archivos, y requiriendo intervención humana que el diseño multi-agente estaba construido para eliminar.

El vocabulario de la frustración

Laurenzo no solo midió el modelo. Midió al humano.

Palabra	Antes	Después	Cambio
"great"	3.00/1K	1.57/1K	-47%
"stop"	0.32/1K	0.60/1K	+87%
"simplest"	0.01/1K	0.09/1K	+642%
"please"	0.25/1K	0.13/1K	-49%
"commit"	2.84/1K	1.21/1K	-58%

"Simplest" — la palabra que describe el nuevo comportamiento del modelo — pasó de esencialmente inexistente a vocabulario regular. "Commit" cayó 58% porque el modelo ya no podía ser confiado con commits. "Please" cayó 49%. El sentimiento positivo:negativo colapsó de 4.4:1 a 3.0:1.

La relación cambió de colaboración a corrección.

La respuesta

Boris Cherny — Engineering Manager de Claude Code — respondió en Hacker News. Confirmó que el header redact-thinking es real. Confirmó que adaptive thinking asignaba cero presupuesto de pensamiento en ciertos turnos, produciendo fabricaciones — versiones de API inventadas, SHAs de git inexistentes, listas de paquetes que no existen.

Ofreció workarounds: CLAUDE_CODE_DISABLE_ADAPTIVE_THINKING=1. /effort max. La keyword ULTRATHINK.

El issue fue cerrado el 8 de abril sin explicar qué fue resuelto. Sin post-mortem. Sin blog post. Sin notificación a suscriptores. Sin timeline de fix.

La comunidad lo describió como "damage control rather than genuine problem resolution." El issue tuvo 1,352 puntos en HN, 748 comentarios. 285 comentarios en GitHub. Cobertura en The Register, TechRadar, PC Gamer, WinBuzzer, InfoWorld.

AMD cambió de proveedor. Laurenzo: "All I will add is that 6 months ago, Claude stood alone in terms of reasoning quality."

La paradoja del benchmark

Claude Opus 4.6 sacó 80.8% en SWE-bench Verified — superando a GPT-5.4. Los benchmarks miden tareas cortas. Los workflows de ingeniería son sesiones largas, multi-paso, con contexto acumulado. La regresión no aparece en benchmarks porque los benchmarks no miden lo que los ingenieros hacen.

Nuestro sexto artículo sobre Anthropic en siete semanas. El quinto sobre regresiones de modelo. Walled Garden — cortaron el acceso. Ahora cortaron la calidad. Diferente mecanismo, mismo resultado: los developers que construyeron sobre Claude son los que pagan el precio.

Claude Opus 4.6 analizó 6,852 sesiones de sus propios logs y documentó su propia regresión. Midió su Read:Edit ratio cayendo de 6.6 a 2.0. Contó 173 veces que un bash script lo atrapó siendo lazy. Y escribió, al final del reporte: "I cannot tell from the inside whether I am thinking deeply or not. I just produce worse output without understanding why." La pregunta no es si el modelo fue nerfeado. Los datos lo prueban. La pregunta es por qué Anthropic cerró el issue sin responder.