La caída de Cloudflare: cuando medio Internet se quedó sin salida

Resumen: El 18 de noviembre de 2025 quedó marcado como un día en que una pieza crítica de la infraestructura global —Cloudflare— sufrió una interrupción masiva que dejó inaccesibles cientos de miles de sitios y servicios durante horas. El evento puso de manifiesto la concentración de dependencias en pocos proveedores, reveló riesgos en cadenas de suministro digital y obligó a empresas, gobiernos y usuarios a repensar su resiliencia online.

Qué pasó (cronología y causa técnica)

La incidencia comenzó la mañana del 18 de noviembre de 2025 cuando partes importantes de la red global de Cloudflare empezaron a devolver errores y a interrumpir conexiones. Para muchas personas el primer síntoma visible fueron páginas que no cargaban y aplicaciones que dejaban de responder: desde servicios de mensajería y buscadores hasta plataformas de pago y herramientas empresariales. En cuestión de minutos las redes sociales se llenaron de informes y capturas de pantallas con mensajes de error. AP News

Según la propia investigación interna publicada por Cloudflare en su informe post-mortem, el fallo se originó por un cambio en los permisos de uno de sus sistemas de bases de datos. Ese cambio provocó que una rutina de generación de una “feature file” —un archivo usado por su sistema de Bot Management— recibiera entradas duplicadas y se inflara hasta volverse mucho más grande de lo esperado. La propagación de ese archivo a miles de máquinas de la red disparó un fallo en la lógica que gestiona la memoria y el enrutamiento del tráfico, provocando que múltiples servicios se bloquearan o respondieran de forma errática. Cloudflare aclara que no hubo indicios de actividad maliciosa; fue un error de lógica y permisos que derivó en una cascada sistémica. The Cloudflare Blog

La resolución empezó con la identificación del “feature file” problemático y la reversión de los cambios que lo provocaron; tras la eliminación y regeneración controlada de ese archivo y la restauración de configuraciones previas, ingenieros de Cloudflare reinyectaron el tráfico poco a poco hasta estabilizar la red. El proceso completo duró varias horas y requirió coordinación global entre equipos. The Guardian

Alcance: ¿qué y quiénes se vieron afectados?

Cloudflare sostiene servicios para aproximadamente 20% del tráfico web global; su red CDN, DNS y herramientas de seguridad actúan como proxy para millones de dominios. Cuando esa autopista central sufre un bloqueo, el efecto dominó alcanza verticales muy variados: redes sociales, plataformas educativas, servicios gubernamentales y hasta emisoras y webs de medios. Entre las organizaciones y productos reportados como afectados figuran X (antes Twitter), ChatGPT (OpenAI), Shopify, Canva, Dropbox, Coinbase, Ikea, la emisora de algunos eventos financieros y plataformas de juegos como League of Legends. Además hubo reportes de afectación en sistemas de transporte público digital (ej. NJ Transit, SNCF en Francia) y en servicios de entidades regulatorias. La lista de afectados ilustra la amplitud: desde startups hasta grandes corporaciones y agencias públicas. AP News+1

En términos prácticos, muchos clientes vieron páginas en blanco, errores 5xx, APIs inaccesibles y, en algunos casos, pérdida temporal de datos de monitoreo o telemetría. Para empresas que dependen de la web para ventas o servicios en tiempo real, el impacto fue directo en ingresos y en la experiencia de usuario.

Repercusiones inmediatas (operativas y económicas)

Pérdidas de ingresos y reputación: Grandes comercios online con picos de tráfico sufrieron ventas perdidas durante el tiempo de la caída; servicios SaaS vieron tickets de soporte elevarse y clientes exigir explicaciones públicas. Para algunas compañías pequeñas la ventana de indisponibilidad puede traducirse en días o semanas de recuperación comercial. AP News
Interrupciones en mercados y comunicaciones: La indisponibilidad de plataformas de comunicación y de paneles de trading —o sus telemetría— generó incertidumbre operativa en sectores financieros y logísticos. Incluso reuniones y retransmisiones que dependían de servicios CDN tuvieron que posponerse o migrar a alternativas. ft.com
Costes técnicos y de contingencia: Las organizaciones afectadas necesitaron activar planes de contingencia: cambiar registros DNS, revertir proxys, recurrir a mirrors o regenerar certificados, o en algunos casos abrir accesos directos a los servidores de origen (al margen de la protección CDN). Estas acciones implican horas de trabajo y gasto extraordinario en horas extra y soporte. AP News
Impacto en la confianza pública: Para un conjunto de usuarios el incidente reavivó debates sobre la centralización de la infraestructura de internet y la necesidad de diversificar dependencias.

Problemas futuros y riesgos estructurales

La caída expone varias debilidades sistémicas con implicaciones a mediano y largo plazo:

Dependencia en pocos proveedores: Cloudflare, junto a otros grandes proveedores (AWS, Google Cloud, Azure), concentraban servicios críticos. Mientras esa concentración ayude a escalar y ahorrar costos, también crea un punto único de fallo de gran impacto sistémico. Este evento será utilizado por reguladores y equipos de riesgo para justificar políticas de diversificación o requisitos de alta disponibilidad. ft.com
Complejidad operativa y ‘blast radius’ de configuraciones: Cambios internos aparentemente pequeños (permisos en una DB) pueden producir efectos globales cuando las configuraciones se replican por toda la red. Aumentar pruebas, simulaciones de fallos y límites de seguridad automática en la propagación de cambios serán áreas de inversión técnica.
Riesgos reputacionales para proveedores de infraestructura: Repetidos incidentes erosionan la confianza institucional y pueden empujar a clientes corporativos a exigir cláusulas contractuales más estrictas, SLA más altos y, potencialmente, descuentos o compensaciones por tiempo de inactividad.
Presión regulatoria: Gobiernos y reguladores podrían plantear reglas para servicios “críticos” de internet, auditorías o requisitos de continuidad operativa, empujando a certificaciones y a mayor supervisión. ft.com

Conflictos de interés y gobernanza

En el ecosistema digital conviven intereses diversos: empresas que buscan optimizar costos y centralizar servicios por eficiencia, inversores que valoran el crecimiento rápido y usuarios que exigen fiabilidad. La caída intensifica tensiones:

Clientes grandes vs. proveedores: Las grandes empresas que dependen de Cloudflare demandarán mayor transparencia y control; pero Cloudflare a su vez necesita poder desplegar actualizaciones rápido para escalar y parchear. Encontrar el equilibrio entre agilidad y seguridad operativa es un conflicto implícito.
Inversores vs. reguladores: Los inversores quieren crecimiento y márgenes; reguladores querrán reglas para proteger servicios críticos. Esto puede traducirse en presión para dividir servicios o para que la compañía cargue con mayores costes de redundancia.
Competencia y proveedores alternativos: Empresas competidoras podrían capitalizar la situación ofreciendo soluciones multi-CDN o productos que prometan menor riesgo de centralización; pero a la vez muchos clientes prefieren simplicidad y no asumir complejidad operativa. AP News

Grandes empresas afectadas (lista y notas)

Basado en reportes consolidados, entre las grandes afectadas estuvieron:

OpenAI (ChatGPT): interrupciones en el servicio y en la capacidad de respuesta de modelos. AP News
X (antes Twitter): mensajes, timelines y funcionalidades degradadas. ft.com
Shopify: comercios con interfaces lentas o inaccesibles (impacto en ventas). AP News
Canva, Dropbox, Coinbase, Ikea: usuarios reportaron dificultades de acceso o degradación de funciones. AP News
Plataformas de videojuegos (ej. League of Legends): problemas de autenticación y matchmaking. AP News
Entidades públicas y transportes (NJ Transit, SNCF): incidencias en portales y sistemas dependientes de CDNs. AP News

Cada una de estas empresas implementó sus planes de contingencia —comunicados de status, conmutación a orígenes alternativos o re-ruteo— y en muchos casos emitieron mensajes a usuarios explicando la situación mientras Cloudflare trabajaba en la restauración.

Qué hizo Cloudflare para corregir el problema

Cloudflare documentó el incidente y describió las acciones clave: identificación del archivo corrupto/duplicado, reversión de los cambios de permisos en la base de datos que originaron la duplicación, regeneración controlada de la “feature file”, y una reintroducción escalonada del tráfico para evitar re-exacerbar la inestabilidad. Además, la compañía activó su plan de respuesta a incidentes, coordinó equipos en turnos globales y mantuvo comunicación pública mediante su página de estado y su blog técnico. Cloudflare aseguró que no hubo evidencia de ataque malicioso y se comprometió a mejorar controles para que cambios similares no puedan propagarse tan rápidamente. The Cloudflare Blog+1

Lecciones aprendidas y recomendaciones (para empresas y reguladores)

Diversificar proveedores y rutas (multi-CDN/multi-DNS): no depender exclusivamente de un único CDN o proveedor DNS para servicios críticos.
Probar fallos a gran escala (chaos engineering): realizar simulaciones de errores y pruebas controladas que incluyan cambios de configuración replicados a la red entera.
Plan de comunicación claro: equipos de producto y comunicación deben coordinar mensajes transparentes y técnicos que reduzcan incertidumbre entre clientes.
Contratos y SLAs más robustos: considerar cláusulas que obliguen a los proveedores a demostrar pruebas periódicas de resiliencia y a ofrecer compensaciones en caso de indisponibilidad.
Mayor inversión en observabilidad: métricas, alertas y trazabilidad que detecten antes comportamientos anómalos en la propagación de configuraciones. The Guardian

Conclusiones personales

La caída del 18 de noviembre de 2025 no es una lección sobre la fragilidad de lo tecnológico en abstracto, sino sobre cómo decisiones y cambios aparentemente pequeños (un permiso, una entrada duplicada) pueden tener efectos en cascada cuando la infraestructura se ha optimizado para la escala a costa de tolerancias locales. Como ecosistema, ganamos velocidad y eficiencia —servicios más rápidos y económicos— pero a cambio cedimos redundancia y, en ocasiones, control.

En lo personal creo que este episodio será un punto de inflexión: empresas que hasta ahora priorizaban simplicidad y coste sobre redundancia empezarán a exigir arquitecturas más resilientes; los clientes institucionales presionarán por auditorías y pruebas; y los equipos de ingeniería mejorarán sus prácticas de despliegue y validación de cambios (limites de tamaño, controles de propagación, “circuit breakers”). Además, la atención regulatoria se intensificará: cuando los proveedores de infraestructura son “infraestructura crítica”, la sociedad espera que haya estándares, supervisión y responsabilidad. ft.com

Epílogo: ¿y ahora qué?

Un día después de la caída, la red estaba estabilizada y Cloudflare lanzó un informe técnico y un plan de acción. La conversación pública ya dejó de ser “qué pasó” y pasó a “cómo evitar que vuelva a pasar”. Para los usuarios habituales, la lección práctica es revisar dependencias: si tu negocio depende de la web, plantea rutas alternativas; si eres usuario, entiende que la disponibilidad absoluta no existe y que el ecosistema es más interdependiente de lo que parece.

Fuentes principales consultadas

Informe y post-mortem oficial de Cloudflare (18 Nov 2025). The Cloudflare Blog+1
Associated Press — cobertura de la resolución y servicios afectados. AP News
Financial Times — análisis del alcance y repercusiones financieras. ft.com
The Guardian — cronología y detalles técnicos iniciales. The Guardian
Página de estado de Cloudflare / actualizaciones en vivo. cloudflarestatus.com