Panne Cloudflare 2023 : ClickHouse, fichier oversize et crash mondial expliqués

·

·

5 min de lecture

Le 18 novembre 2023, une erreur de configuration dans ClickHouse (base de données open-source) a fait doubler la taille d’un fichier critique chez Cloudflare. Résultat : une panne mondiale touchant 20% du web, incluant Spotify, Discor

📅 19 novembre 2025

En bref


  • Un fichier trop gros a fait tomber 20% du web et il fallait s’y attendre.
  • ClickHouse : la DB open-source qui rock, mais qui a montré ses limites avec une mauvaise config.
  • Leçon pour tous les devs/ops : toujours mettre des limites strictes sur les tailles de fichiers en prod.

Hé oui, encore une panne massive qui prouve que même les géants comme Cloudflare ne sont pas infaillibles. Si tu bosses dans la tech, tu sais déjà que les petites erreurs humaines peuvent avoir des conséquences énormes. Et là, on parle d’un simple fichier de features qui a doublé de taille après une modif d’autorisations dans ClickHouse, une base de données colonne open-source hyper performante. Résultat ? Panne mondiale, sites majeurs HS (Spotify, Discord, ChatGPT), et des milliers de gens en PLS devant leurs écrans. Bref, ça mérite un décryptage.

Le contexte : Cloudflare, c’est quoi ?


Cloudflare, c’est un peu le cerveau d’une grosse partie du web. Ils gèrent des services comme la protection anti-bot, le CDN, et plein d’autres trucs qui tournent en edge. Mais quand ça plante, c’est pas juste un site qui bug : c’est carrément 20% d’Internet qui se retrouve HS. Et ça, c’est ce qui s’est passé le 18 novembre dernier.

Le truc cool : ClickHouse et les bots


Alors, pourquoi c’est intéressant pour les geeks comme nous ? Parce que ClickHouse, c’est une DB colonne open-source optimisée pour l’analytique en temps réel. Ultra rapide, utilisée par des boîtes comme Uber, eBay, et même Cloudflare. Mais là, clairement, ils ont merdé.

  • Une modif « de routine » des autorisations dans ClickHouse a fait doubler la taille d’un fichier de features.
  • Ce fichier, utilisé pour le système anti-bot, a dépassé les limites mémoire du routage.
  • Résultat : crash en cascade sur leur réseau mondial.

Le truc encore plus cool (ou pas), c’est que ce fichier se régénérait toutes les 5 minutes, créant un loop de crash/recovery. Genre, tu répares un truc, et BAM, ça recrash direct. Fun, non ?

Les chiffres qui font mal


  • Durée de la panne : ~3h30 (11h20 → 14h30 UTC).
  • Sites affectés : ~20% du web (via Cloudflare).
  • Services impactés : Spotify, Discord, ChatGPT, League of Legends, et même des sites de paris comme Bet365.
  • Rapports utilisateurs : 11 000+ sur DownDetector.
  • Cause racine : Un fichier de features passé de X Mo à 2X Mo (taille exacte non divulguée).

Le hic : ce qui a vraiment merdé


Pas de circuit breaker

Un fichier qui dépasse une limite devrait déclencher un rollback immédiat, pas un crash en cascade. Là, clairement, leurs guards étaient pas assez robustes.

Régénération automatique = cauchemar

Le fichier se recréait toutes les 5 minutes, donc impossible de stabiliser le système sans intervention manuelle. Probablement un cron job ou un cache auto-rafraîchi sans vérification de taille.

Impact sur la réputation

Cloudflare est un SPOF (Single Point of Failure) pour 20% du web. Une panne = effet domino massif.

Coût caché

Pas de chiffres sur les pertes pour les clients, mais Cloudflare offre des crédits en compensation. Franchement, ça reste flou.

Bullshit detector


  • « Modification de routine » : Sous-entend que c’était un changement mineur, mais aucun détail sur le processus de review. Genre, y’avait pas de pre-deploy checklist pour les changes DB ?
  • « Problème résolu en 3h30 » : Oui, mais avec des rebonds toutes les 5 minutes. Pas une résolution propre, quoi.
  • « Engagement à améliorer les protections » : Classique après une panne. On verra si ça se concrétise.

Les leçons à retenir


Si t’es dev ou ops, voici ce que tu peux en tirer :

  • Toujours mettre des limites strictes sur les tailles de fichiers, la mémoire, les requêtes, etc.
  • Circuit breakers > auto-recovery : évite les loops de crash.
  • Tester les changes DB en staging, même pour des « modifs de routine ».

Et maintenant ?


Cloudflare promet des améliorations, mais franchement, on attend de voir. Ce serait cool qu’ils publient un post-mortem détaillé, avec des metrics internes (CPU, mémoire, latence) pendant la panne. En attendant, t’as qu’à creuser du côté de ClickHouse et voir comment ils gèrent leurs guards contre les oversizes.

Allez, dis-moi ce que t’en penses ou si t’as eu des pannes similaires ! 💪

(PS : Si tu veux approfondir, jette un œil au post-mortem officiel de Cloudflare quand il sortira. Ou compare avec l’incident Fastly de 2021, c’est assez comparable.)

🚀 Vous avez aimé cet article ?

Partagez-le avec votre réseau.

Tags :

Vous avez aimé cet article ?

Recevez les prochains directement dans votre boîte mail.