Tu startup murió mientras dormías.
No fue un hack. No fue un zero-day. No fue un empleado descuidado ni un ataque de supply chain. Fue una actualización. Una que nadie te avisó. Una que no aparece en ningún changelog. Una que cambió el comportamiento del modelo sobre el que construiste tu producto, tu pipeline, tu ingreso mensual recurrente.
Te despertaste. Los tests pasaban. Los logs se veían normales. Pero los usuarios ya estaban escribiendo "algo cambió" en tu canal de soporte.
Bienvenido al mundo de construir sobre arena.
El 5 de agosto de 2025, Anthropic desplegó una actualización de infraestructura. Nada dramático — una reconfiguración de servidores para preparar la ventana de contexto de un millón de tokens. Rutinario.
Excepto que el 0.8% de las requests a Sonnet 4 empezaron a ser enrutadas a servidores configurados para un modelo diferente. Requests que pedían respuestas en inglés empezaron a devolver caracteres en tailandés y chino. Código que debería compilar empezó a generar errores de sintaxis obvios. Un bug en el compilador XLA:TPU hacía que el modelo asignara alta probabilidad a tokens que jamás deberían aparecer en el contexto dado.
El 31 de agosto, en la peor hora, el 16% del tráfico de Sonnet 4 estaba siendo enrutado mal. Aproximadamente el 30% de los usuarios de Claude Code que estaban activos durante esa ventana tuvieron al menos una request malruteada.
Tres bugs separados. Veintiséis días para identificarlos. Miles de requests contaminadas.
Anthropic lo admitió después del hecho: "We never reduce model quality due to demand, time of day, or server load. The problems our users reported were due to infrastructure bugs alone."
Fascinante. Los bugs de infraestructura también matan startups.
El ciclo
El patrón es tan predecible que ya debería tener nombre propio.
Fase 1 — Anthropic actualiza el modelo. A veces lo anuncia. A veces no. A veces es un nuevo modelo. A veces es una "mejora" invisible al modelo existente. A veces es una reconfiguración de infraestructura que técnicamente no cambia el modelo pero cambia cómo responde.
Fase 2 — El comportamiento cambia. Sutilmente. El formato de las respuestas se altera. La adherencia a instrucciones fluctúa. El modelo se vuelve más verboso, o menos. Más conservador, o menos. El código que generaba limpio ahora tiene errores. El JSON que parseaba perfecto ahora viene con campos extra.
Fase 3 — Los tests pasan. Porque los tests evalúan output, no comportamiento. Un test que verifica "¿la respuesta contiene la palabra X?" sigue pasando aunque la calidad de la respuesta haya caído del cielo.
Fase 4 — Los usuarios lo notan primero. Siempre. Antes que tu equipo de QA, antes que tus evals, antes que tus dashboards. Un mensaje en Slack: "¿Le hicieron algo al bot?"
Fase 5 — Tu equipo scrambles. Hotfix sobre hotfix. Ajustes de prompt. Cambios en temperatura. Un engineer senior pierde un fin de semana entero recalibrando algo que funcionaba perfecto el jueves.
Fase 6 — Anthropic no confirma ni niega. O peor: confirma semanas después, cuando el daño ya está hecho.
Repeat.
Los cadáveres
Enero 26, 2026. Un bug en el harness de Claude Code destruye la calidad de las respuestas. Confirmado por Anthropic. Rolled back el 28 de enero. Dos días. Para cualquier empresa que dependía de Claude Code para su pipeline de desarrollo, dos días es una eternidad. Miles de líneas de código generado durante esa ventana — ¿cuántas se fueron a producción con bugs invisibles?
Enero 12, 2026. Claude 4.5 Opus experimenta una "degradación sombra". Los usuarios reportan "laziness" severa, rechazo a seguir constraints, y pérdida rápida de contexto. El issue de GitHub acumula cientos de comentarios. La palabra que más se repite: "shadow downgrade." Como si alguien hubiera reemplazado Opus por un modelo menor sin decir nada.
Febrero 10-11, 2026. Anthropic despliega un cambio de configuración a Opus 4.6. En cuestión de horas, los usuarios reportan que el rendimiento en tareas complejas ha colapsado. Muchos desarrolladores empiezan a reportar que Sonnet 4.6 es ahora más confiable que Opus 4.6. Una inversión de expectativas que no debería existir.
Marzo 6, 2026. Un pipeline de automatización que había corrido sin falla por dos semanas con claude-opus-4-6 empieza a producir resultados incoherentes. El output es consistente con Sonnet 3.5, no con Opus 4.6. El modelo ignora reglas marcadas con "NEVER." Se salta la lectura de archivos de referencia. La profundidad de razonamiento cae al piso. El usuario pide algo que debería ser obvio: poder pinnear a una versión específica del modelo para que esto no vuelva a pasar.
Marzo 2026. La página de status de Anthropic se lee como un log de guerra: outages mayores el 2-3 de marzo, errores elevados el 11 de marzo, aproximadamente un incidente mayor cada 2-3 días.
No incidentes aislados. Un patrón.
La inversión
El post más votado en r/ClaudeAI la semana pasada fue "Claude Is Dead." 841 upvotes. Más del doble que la respuesta oficial de Anthropic.
El uso de Claude Code cayó de 83% a 70% según Vibe Kanban, con el agente Codex de OpenAI llenando el vacío. Desarrolladores cancelando suscripciones en masa. Subreddits llenos de screenshots, logs, y frustración documentada. Un megathread pinneado que sigue creciendo página tras página.
Y Anthropic respondiendo, semanas después, que nunca degrada la calidad intencionalmente. Que todo fue "infrastructure bugs."
El optimismo corporativo es un fenómeno fascinante. Ya lo dijimos la vez pasada.
No es solo Claude
En julio de 2023, investigadores de Stanford y UC Berkeley publicaron un estudio que debería haber cambiado todo: "How is ChatGPT's behavior changing over time?"
Los hallazgos: la precisión de GPT-4 en identificar números primos cayó del 84% al 51% entre marzo y junio de 2023. El porcentaje de código ejecutable generado por GPT-4 se desplomó del 52% al 10%. La capacidad de seguir instrucciones de usuario disminuyó consistentemente.
El mismo modelo. El mismo API endpoint. El mismo model ID. Resultados radicalmente diferentes a tres meses de distancia.
El paper lo dijo claro: "The behavior of the 'same' LLM service can change substantially in a relatively short amount of time."
Eso fue 2023. La industria leyó el paper. Lo citó en conferencias. Lo discutió en Twitter. Y cambió exactamente nada.
La arquitectura del problema
No existe semantic versioning para modelos de AI.
Un claude-opus-4-6 hoy no es necesariamente el mismo claude-opus-4-6 de la semana pasada. El model ID es una promesa estética, no un contrato técnico. Anthropic ofrece model IDs con fecha (claude-sonnet-4-20250514) que deberían garantizar comportamiento consistente. Pero los bugs de routing mandan tus requests a otro modelo sin avisarte. Y cuando deprecan una versión, tu código empieza a fallar sin warning.
No hay SLA de comportamiento. No hay guarantee de que "mejorar" el modelo no destruya tu caso de uso. No hay periodo de deprecación que le dé a tu equipo tiempo suficiente para adaptar.
Anthropic mejoró seguridad → tu herramienta de coding se rompió.
Anthropic mejoró razonamiento → tu parser falló.
Anthropic redujo verbosidad → tu pipeline de extracción dejó de funcionar.
Anthropic cerró acceso a terceros → OpenCode y sus 56K estrellas de GitHub murieron de la noche a la mañana.
Lo que es "mejor" según los benchmarks es frecuentemente "peor" para tu negocio.
Lo que no se dice
Hay una industria entera construida sobre la premisa de que los modelos de AI son infraestructura estable. VCs que fondean startups que son wrappers sobre Claude. Enterprises que migran workflows críticos a APIs de modelos. Developers que construyen productos enteros sobre la suposición de que el modelo de mañana va a comportarse como el de hoy.
Esa suposición es falsa. Y todos lo saben. Y nadie quiere decirlo en voz alta porque decirlo en voz alta mata las valuaciones.
Empresas como Braintrust, LangSmith, y docenas más existen específicamente para monitorear regresiones de modelo. Su existencia es la prueba de que el problema es real. No construyes una industria de monitoreo alrededor de infraestructura que no se rompe.
Y mientras tanto, Anthropic actualiza. Todos los días. Sin changelog. Sin semantic versioning. Sin SLA de comportamiento. Sin periodo de gracia.
El modelo que tu startup necesita para sobrevivir mañana podría no existir mañana.
¿Cuántas startups tienen que morir para que la industria invente semantic versioning para AI?
¿Cuántos engineers tienen que perder un fin de semana para que alguien diga en voz alta que construir sobre modelos sin garantía de estabilidad es construir sobre arena?
No es un bug. Es el modelo de negocio.
Y mañana hay otra actualización.