Análise Detalhada da Queda Global da Cloudflare em Novembro de 2025

A Cloudflare, uma das empresas mais cruciais para a infraestrutura da internet moderna, sofreu uma interrupção de serviço significativa em 18 de Novembro de 2025. O incidente, que durou aproximadamente três horas em seu pico e afetou a entrega de tráfego de rede central para uma vasta porção da web, reacendeu o debate sobre a concentração de infraestrutura digital e a fragilidade inerente a sistemas de alta dependência.

Diferentemente de muitos incidentes de grande escala, a causa raiz não foi um ataque cibernético ou atividade maliciosa, mas sim uma mudança de permissão mal-sucedida em um de seus sistemas de banco de dados, que desencadeou uma cascata de falhas em seu core proxy.

A Linha do Tempo do Incidente

O apagão começou a se manifestar por volta das 11:20 UTC (08:20 no horário de Brasília), com usuários em todo o mundo encontrando páginas de erro HTTP 5xx ao tentar acessar sites que dependem da rede da Cloudflare. A empresa agiu rapidamente, mas a complexidade do problema exigiu um esforço coordenado de várias horas para a resolução completa.

A Causa Raiz: Uma Mudança de Permissão no ClickHouse

A falha teve origem em uma tentativa de melhoria de segurança e confiabilidade nos *queries* distribuídos do cluster de banco de dados ClickHouse da Cloudflare. A mudança, implementada às 11:05 UTC, visava tornar explícito o acesso a tabelas subjacentes (`r0` database) para que os *queries* distribuídos pudessem ser executados sob contas de usuário iniciais, permitindo uma avaliação mais granular de limites e permissões.

O problema surgiu porque um query crucial, usado pela lógica de geração do arquivo de configuração do sistema Bot Management, não filtrava pelo nome do banco de dados. Antes da mudança, esse query retornava apenas metadados da base de dados `default`. Após a mudança, ele passou a retornar metadados duplicados, incluindo os da base de dados `r0`, o que efetivamente dobrou o número de linhas no resultado.

O Mecanismo da Falha: O “Feature File” e o Pânico do Proxy

O resultado desse query defeituoso era um “feature file” (arquivo de recursos) que alimentava o modelo de *machine learning* do Bot Management. Com o dobro do tamanho esperado, esse arquivo foi propagado rapidamente para todas as máquinas que compõem a rede da Cloudflare.

O software que roteia o tráfego na rede, o core proxy FL2 (escrito em Rust), possui limites de alocação de memória para otimização de desempenho. Especificamente, o módulo Bot Management tinha um limite de 200 recursos para pré-alocação de memória. O novo arquivo, excedendo esse limite, fez com que o sistema entrasse em um estado de “pânico” (*panic*), resultando em um erro não tratado e na interrupção do processamento de tráfego.

A falha não foi imediata e constante. O arquivo defeituoso era gerado a cada cinco minutos. Como a mudança de permissão estava sendo implementada gradualmente, o sistema alternava entre gerar um arquivo bom e um arquivo ruim, fazendo com que o sistema falhasse e se recuperasse em ciclos de cinco minutos. Essa flutuação inicial levou a equipe a suspeitar, erroneamente, de um ataque DDoS em hiperescala.

O Impacto Global

A interrupção do serviço central da Cloudflare causou um efeito dominó em toda a internet. A Cloudflare estima que a interrupção afetou cerca de **um quinto do tráfego global da internet.

Os serviços impactados incluíram:

* **Core CDN e Serviços de Segurança:** Retorno de códigos de erro HTTP 5xx para usuários finais.
* **Workers KV e Cloudflare Access:** Sofreram falhas de autenticação e erros 5xx devido à dependência do *core proxy* central.
* **Turnstile:** O sistema de CAPTCHA da Cloudflare falhou ao carregar.
* **Dashboard:** O painel de controle da Cloudflare ficou inacessível para muitos usuários, pois o Turnstile era usado no fluxo de login.

A gravidade do incidente foi classificada pela própria Cloudflare como a pior desde 2019, reforçando a preocupação sobre a **concentração da infraestrutura da web** em poucas empresas.

Lições Aprendidas e Planos Futuros

Em seu *post-mortem* detalhado, a Cloudflare pediu desculpas pelo impacto e delineou planos para fortalecer seus sistemas contra falhas futuras. As principais ações de endurecimento incluem:

1. Endurecimento da Ingestão de Configuração: Tratar arquivos de configuração gerados internamente com o mesmo rigor de validação que a entrada gerada pelo usuário.
2. Habilitação de Kill Switches Globais: Implementar mais chaves de interrupção globais para desativar recursos rapidamente em caso de falha.
3. Revisão de Modos de Falha: Revisar os modos de falha para condições de erro em todos os módulos do *core proxy*, garantindo que erros não tratados não causem pânico no sistema.
4. Eliminação de Sobrecarga por Relatórios de Erro: Garantir que relatórios de erro e *core dumps* não sobrecarreguem os recursos do sistema.

O incidente de Novembro de 2025 serve como um lembrete crítico de que, mesmo em sistemas projetados para serem altamente resilientes, a complexidade da infraestrutura moderna pode levar a falhas catastróficas a partir de um único ponto de erro, como uma simples mudança de permissão em um banco de dados.

## Referências

[1] Cloudflare. *Cloudflare outage on November 18, 2025*. Disponível em: [https://blog.cloudflare.com/18-november-2025-outage/](https://blog.cloudflare.com/18-november-2025-outage/).

Gostou do Conteúdo? Comente e compartilhe.

Posts Recentes

Seus E-mails Estão Vendendo por Você? Conheça o Novo Gerador de Assinaturas da Niterói Web Design

Janeiro 7, 2026 Sem comentários

Quantos e-mails você ou sua equipe enviam por dia? Dez? Trinta? Cinquenta? Agora, multiplique isso por 20 dias úteis. São

Leia Mais »

Otimização de e-commerce: estratégias avançadas para vender mais

Janeiro 5, 2026 Sem comentários

Seu e-commerce recebe visitas, mas as vendas não acompanham? Na era da busca por IA e do Google cada vez

Leia Mais »

Como Criar QR Code para Avaliação no Google em Passos Simples

Dezembro 30, 2025 Sem comentários

Como Criar QR Code para Avaliação no Google em Passos Simples Quer aumentar suas avaliações no Google de forma rápida

Leia Mais »

Descubra o Melhor Contador de Palavras Online para Seus Textos

Dezembro 30, 2025 Sem comentários

Descubra o Melhor Contador de Palavras Online para Seus Textos Quer saber como otimizar seus textos com precisão? Descubra o

Leia Mais »

Análise Detalhada da Queda Global da Cloudflare em Novembro de 2025

Gostou do Conteúdo? Comente e compartilhe.

Posts Recentes

Seus E-mails Estão Vendendo por Você? Conheça o Novo Gerador de Assinaturas da Niterói Web Design

Otimização de e-commerce: estratégias avançadas para vender mais

Como Criar QR Code para Avaliação no Google em Passos Simples

Descubra o Melhor Contador de Palavras Online para Seus Textos

Pesquisar

Siga-nos