A Cloudflare, uma das empresas mais cruciais para a infraestrutura da internet moderna, sofreu uma interrupção de serviço significativa em 18 de Novembro de 2025. O incidente, que durou aproximadamente três horas em seu pico e afetou a entrega de tráfego de rede central para uma vasta porção da web, reacendeu o debate sobre a concentração de infraestrutura digital e a fragilidade inerente a sistemas de alta dependência.
Diferentemente de muitos incidentes de grande escala, a causa raiz não foi um ataque cibernético ou atividade maliciosa, mas sim uma mudança de permissão mal-sucedida em um de seus sistemas de banco de dados, que desencadeou uma cascata de falhas em seu core proxy.
A Linha do Tempo do Incidente
O apagão começou a se manifestar por volta das 11:20 UTC (08:20 no horário de Brasília), com usuários em todo o mundo encontrando páginas de erro HTTP 5xx ao tentar acessar sites que dependem da rede da Cloudflare. A empresa agiu rapidamente, mas a complexidade do problema exigiu um esforço coordenado de várias horas para a resolução completa.
| Hora (UTC) | Evento | Descrição |
| :— | :— | :— |
| **11:05** | **Mudança de Configuração** | Uma alteração no controle de acesso ao banco de dados ClickHouse é implementada. |
| **11:20** | **Início do Impacto** | A rede da Cloudflare começa a apresentar falhas significativas na entrega de tráfego central. |
| **11:28** | **Erros Observados** | Os primeiros erros 5xx são observados no tráfego HTTP dos clientes. |
| **11:32-13:05** | **Investigação Inicial** | A equipe investiga inicialmente o serviço Workers KV, suspeitando de degradação. |
| **13:05** | **Mitigação Parcial** | Implementação de *bypass* para Workers KV e Cloudflare Access, reduzindo o impacto nesses serviços. |
| **13:37** | **Foco na Causa Raiz** | O trabalho se concentra no *rollback* do arquivo de configuração do Bot Management para uma versão funcional anterior. |
| **14:24** | **Propagação Interrompida** | A criação e propagação de novos arquivos de configuração defeituosos do Bot Management são interrompidas. |
| **14:30** | **Resolução do Impacto Principal** | Um arquivo de configuração correto é implantado globalmente, e a maioria dos serviços começa a operar normalmente. |
| **17:06** | **Restauração Total** | Todos os serviços *downstream* são reiniciados e as operações são totalmente restauradas [1]. |
A Causa Raiz: Uma Mudança de Permissão no ClickHouse
A falha teve origem em uma tentativa de melhoria de segurança e confiabilidade nos *queries* distribuídos do cluster de banco de dados ClickHouse da Cloudflare. A mudança, implementada às 11:05 UTC, visava tornar explícito o acesso a tabelas subjacentes (`r0` database) para que os *queries* distribuídos pudessem ser executados sob contas de usuário iniciais, permitindo uma avaliação mais granular de limites e permissões.
O problema surgiu porque um query crucial, usado pela lógica de geração do arquivo de configuração do sistema Bot Management, não filtrava pelo nome do banco de dados. Antes da mudança, esse query retornava apenas metadados da base de dados `default`. Após a mudança, ele passou a retornar metadados duplicados, incluindo os da base de dados `r0`, o que efetivamente dobrou o número de linhas no resultado.
O Mecanismo da Falha: O “Feature File” e o Pânico do Proxy
O resultado desse query defeituoso era um “feature file” (arquivo de recursos) que alimentava o modelo de *machine learning* do Bot Management. Com o dobro do tamanho esperado, esse arquivo foi propagado rapidamente para todas as máquinas que compõem a rede da Cloudflare.
O software que roteia o tráfego na rede, o core proxy FL2 (escrito em Rust), possui limites de alocação de memória para otimização de desempenho. Especificamente, o módulo Bot Management tinha um limite de 200 recursos para pré-alocação de memória. O novo arquivo, excedendo esse limite, fez com que o sistema entrasse em um estado de “pânico” (*panic*), resultando em um erro não tratado e na interrupção do processamento de tráfego.
A falha não foi imediata e constante. O arquivo defeituoso era gerado a cada cinco minutos. Como a mudança de permissão estava sendo implementada gradualmente, o sistema alternava entre gerar um arquivo bom e um arquivo ruim, fazendo com que o sistema falhasse e se recuperasse em ciclos de cinco minutos. Essa flutuação inicial levou a equipe a suspeitar, erroneamente, de um ataque DDoS em hiperescala.
O Impacto Global
A interrupção do serviço central da Cloudflare causou um efeito dominó em toda a internet. A Cloudflare estima que a interrupção afetou cerca de **um quinto do tráfego global da internet.
Os serviços impactados incluíram:
* **Core CDN e Serviços de Segurança:** Retorno de códigos de erro HTTP 5xx para usuários finais.
* **Workers KV e Cloudflare Access:** Sofreram falhas de autenticação e erros 5xx devido à dependência do *core proxy* central.
* **Turnstile:** O sistema de CAPTCHA da Cloudflare falhou ao carregar.
* **Dashboard:** O painel de controle da Cloudflare ficou inacessível para muitos usuários, pois o Turnstile era usado no fluxo de login.
A gravidade do incidente foi classificada pela própria Cloudflare como a pior desde 2019, reforçando a preocupação sobre a **concentração da infraestrutura da web** em poucas empresas.
Lições Aprendidas e Planos Futuros
Em seu *post-mortem* detalhado, a Cloudflare pediu desculpas pelo impacto e delineou planos para fortalecer seus sistemas contra falhas futuras. As principais ações de endurecimento incluem:
1. Endurecimento da Ingestão de Configuração: Tratar arquivos de configuração gerados internamente com o mesmo rigor de validação que a entrada gerada pelo usuário.
2. Habilitação de Kill Switches Globais: Implementar mais chaves de interrupção globais para desativar recursos rapidamente em caso de falha.
3. Revisão de Modos de Falha: Revisar os modos de falha para condições de erro em todos os módulos do *core proxy*, garantindo que erros não tratados não causem pânico no sistema.
4. Eliminação de Sobrecarga por Relatórios de Erro: Garantir que relatórios de erro e *core dumps* não sobrecarreguem os recursos do sistema.
O incidente de Novembro de 2025 serve como um lembrete crítico de que, mesmo em sistemas projetados para serem altamente resilientes, a complexidade da infraestrutura moderna pode levar a falhas catastróficas a partir de um único ponto de erro, como uma simples mudança de permissão em um banco de dados.
## Referências
[1] Cloudflare. *Cloudflare outage on November 18, 2025*. Disponível em: [https://blog.cloudflare.com/18-november-2025-outage/](https://blog.cloudflare.com/18-november-2025-outage/).
Skip to content



