Tornar al Blog

Arxiu de 19MB que va paralitzar el 20% d'Internet! La caiguda global de Cloudflare

Cloudflare Logo

El 18 de novembre de 2025 passarà a la història com el dia en què Cloudflare, un dels pilars fonamentals de la infraestructura d'Internet, va patir la seva pitjor caiguda des del 2019. Segons el comunicat oficial de l'empresa, un problema tècnic intern va causar que el sistema Bot Management generés un fitxer de configuració amb característiques duplicades que va superar el límit del sistema, paralitzant gran part de la xarxa durant aproximadament 6 hores (11:20 - 17:06 UTC). Des de xarxes socials fins a eines de productivitat, la dependència global d'aquesta infraestructura va quedar en evidència de la forma més dramàtica possible.

Què és Cloudflare i per què la seva caiguda és tan significativa?

Cloudflare és una empresa que ofereix serveis de seguretat i rendiment per a llocs web, actuant com a intermediari entre els servidors i els usuaris finals. La seva xarxa de distribució de contingut (CDN) i protecció contra atacs DDoS la converteixen en un component essencial per a milions de llocs a tot el món. Segons dades oficials, Cloudflare gestiona aproximadament el 20% del tràfic web global, protegint i accelerant milions de llocs web, aplicacions i serveis.

Quan Cloudflare experimenta problemes, l'impacte es nota a nivell global. No és només un servei més: és la columna vertebral de gran part d'Internet moderna. La seva infraestructura està dissenyada per ser resilient, però fins i tot els sistemes més robustos poden fallar sota certes circumstàncies extraordinàries.

Cronologia detallada de la interrupció

Timeline de l'incident (segons comunicat oficial de Cloudflare)

  • 11:05 UTC - Canvi en el control d'accés a la base de dades desplegat. Estat normal.
  • 11:20 UTC - Comença l'impacte. El desplegament arriba als entorns de clients, s'observen els primers errors en el tràfic HTTP dels clients.
  • 11:32 - 13:05 UTC - L'equip investiga nivells elevats de tràfic i errors en el servei Workers KV. S'implementen mitigacions com a manipulació de tràfic i limitació de comptes.
  • 13:05 UTC - S'implementa bypass per a Workers KV i Cloudflare Access, reduint l'impacte.
  • 13:37 UTC - El treball se centra en revertir el fitxer de configuració de Bot Management a una versió coneguda com a bona.
  • 14:24 UTC - S'atura la creació i propagació de nous fitxers de configuració de Bot Management. S'identifica que el mòdul Bot Management era la font dels errors 500.
  • 14:30 UTC - Impacte principal resolt. Es desplega globalment un fitxer de configuració correcte de Bot Management i la majoria dels serveis comencen a operar correctament.
  • 17:06 UTC - Tots els serveis resolts. Tots els serveis downstream reiniciats i totes les operacions completament restaurades.

Plataformes afectades: l'efecte dòmino

La caiguda de Cloudflare va tenir un efecte dòmino en múltiples serveis crítics. La llista de plataformes afectades és impressionant i demostra la dependència global d'aquesta infraestructura:

X Logo

X

Els usuaris van reportar dificultats per carregar timelines, visualitzar publicacions i realitzar noves publicacions. El servei va estar completament inaccessible durant períodes de fins a 30 minuts.

ChatGPT Logo

ChatGPT

L'eina popular d'intel·ligència artificial d'OpenAI va presentar interrupcions en el seu servei. Els usuaris no podien accedir a les seves converses ni iniciar noves sessions.

League of Legends Logo

League of Legends

Els jugadors van experimentar problemes per connectar-se als servidors del joc. Les partides en curs es van interrompre i molts usuaris no van poder iniciar sessió.

Canva Logo

Canva

La plataforma de disseny gràfic en línia també va patir interrupcions, afectant a professionals i aficionats del disseny que depenen d'aquesta eina per al seu treball diari.

Fins i tot Downdetector, el lloc especialitzat en monitoritzar caigudes de serveis, es va veure afectat a causa de la seva pròpia dependència de Cloudflare. Això va crear una situació irònica on l'eina dissenyada per detectar problemes estava experimentant els mateixos problemes que intentava monitoritzar.

Què va passar realment? L'explicació tècnica oficial

Segons el comunicat oficial de Cloudflare, el problema NO va ser causat per un ciberatac o activitat maliciosa. En realitat, va ser un problema tècnic intern molt més específic:

🔍 Causa arrel de l'incident

El problema va ser desencadenat per un canvi en els permisos d'un dels sistemes de base de dades (ClickHouse) que va causar que la base de dades generés múltiples entrades duplicades en un "fitxer de característiques" utilitzat pel sistema Bot Management de Cloudflare.

Aquest fitxer de característiques es va duplicar en mida i va ser propagat a totes les màquines de la xarxa. El programari que llegeix aquest fitxer tenia un límit de mida que estava per sota de la mida duplicada, causant que el programari fallés i generés errors HTTP 500.

El problema tècnic en detall

El sistema Bot Management de Cloudflare utilitza un model de machine learning que requereix un fitxer de configuració de "característiques" (features). Aquest fitxer s'actualitza cada pocs minuts i es distribueix a tota la xarxa per mantenir el sistema actualitzat contra noves amenaces de bots.

El problema va començar quan un canvi en el control d'accés a la base de dades ClickHouse (desplegat a les 11:05 UTC) va causar que una consulta generés files duplicades en la resposta. Això va duplicar el nombre de característiques en el fitxer final, augmentant la seva mida més enllà del límit de 200 característiques que el sistema tenia configurat.

💡 Per què hi havia un límit?

Cloudflare té un límit de 200 característiques per al sistema Bot Management perquè, per raons de rendiment, preassigna memòria per a les característiques. Normalment utilitzen aproximadament 60 característiques, per la qual cosa el límit de 200 estava molt per sobre de l'ús normal. Quan el fitxer amb més de 200 característiques va arribar als servidors, es va assolir el límit i el sistema va entrar en pànic (panic), generant errors 500.

El que va fer aquest incident especialment confús va ser que el fitxer es generava cada cinc minuts, i només es generava incorrectament si la consulta s'executava en una part del clúster ClickHouse que havia estat actualitzada. Això va causar que el sistema es recuperés i fallés alternativament, fent que inicialment semblés un atac DDoS a gran escala.

Impacte global: serveis afectats segons Cloudflare

Segons el comunicat oficial de Cloudflare, els següents serveis van ser impactats durant l'incident:

Serveis afectats:

  • Core CDN i serveis de seguretat: Errors HTTP 5xx en tràfic de clients
  • Turnstile: Va fallar en carregar, impedint l'accés al dashboard
  • Workers KV: Nivell significativament elevat d'errors HTTP 5xx
  • Dashboard: La majoria d'usuaris no van poder iniciar sessió a causa de Turnstile
  • Email Security: Pèrdua temporal d'accés a font de reputació IP, reduint precisió de detecció de spam
  • Cloudflare Access: Fallades d'autenticació generalitzades des de l'inici de l'incident fins a les 13:05 UTC

A més dels errors HTTP 5xx, Cloudflare també va observar augments significatius en la latència de les respostes del seu CDN durant el període d'impacte. Això es va deure al fet que grans quantitats de CPU van ser consumides pels sistemes de depuració i observabilitat que automàticament milloren els errors no capturats amb informació addicional de depuració.

~6

hores d'impacte total

11:20 - 17:06 UTC

3h 10m

d'impacte crític

fins a resolució principal

200+

característiques duplicades

que van causar la fallada

Lliçons apreses: què podem fer?

Aquest incident subratlla la necessitat crítica de comptar amb sistemes redundants i estratègies de mitigació per enfrontar possibles fallades en serveis crítics. La comunitat tecnològica ha de reflexionar sobre com construir una Internet més robusta i menys susceptible a interrupcions massives.

💡 Recomanacions per a empreses

  • Diversificació de proveïdors: No dependre exclusivament d'un sol proveïdor de CDN o infraestructura.
  • Pla de contingència: Tenir plans de respatller clars i provats regularment.
  • Monitoratge proactiu: Implementar sistemes d'alerta primerenca per detectar problemes abans que afectin als usuaris.
  • Comunicació transparent: Mantenir als usuaris informats durant incidents.
  • Anàlisi post-mortem: Realitzar anàlisis detallats després de cada incident per prevenir futurs problemes.

Conclusió: un recordatori de la fragilitat d'Internet

La caiguda de Cloudflare del 18 de novembre de 2025 va deixar en evidència la vulnerabilitat d'Internet quan un dels seus principals proveïdors experimenta problemes. Milions d'usuaris i empreses es van veure afectats, ressaltant la importància de diversificar les dependències tecnològiques i enfortir la resilència de la infraestructura digital.

Aquest incident històric ens recorda que, tot i que Internet sembla omnipresent i robusta, segueix sent una xarxa complexa de sistemes interdependents. Un sol punt de fallada pot tenir conseqüències globals. La lliçó és clara: la redundància i la preparació no són opcionals, són essencials.

Necessites ajuda amb la teva infraestructura IT?

A everyWAN ajudem a les empreses a construir infraestructures resilients i preparades per a qualsevol eventualitat. Contacta amb nosaltres per a una consultoria personalitzada.

Contactar amb everyWAN

Etiquetes:

Compartir:

Minorisa de Sistemas Informaticos y Gestión S.L. © 2025
everyWAN
everyWAN