Panne Cloudflare 2023 : ClickHouse, fichier oversize et crash mondial expliqués

·

·

5 min de lecture

Le 18 novembre 2023, une erreur de configuration dans ClickHouse (base de donnĂ©es open-source) a fait doubler la taille d’un fichier critique chez Cloudflare. RĂ©sultat : une panne mondiale touchant 20% du web, incluant Spotify, Discor

📅 19 novembre 2025

En bref


  • Un fichier trop gros a fait tomber 20% du web et il fallait s’y attendre.
  • ClickHouse : la DB open-source qui rock, mais qui a montrĂ© ses limites avec une mauvaise config.
  • Leçon pour tous les devs/ops : toujours mettre des limites strictes sur les tailles de fichiers en prod.

HĂ© oui, encore une panne massive qui prouve que mĂȘme les gĂ©ants comme Cloudflare ne sont pas infaillibles. Si tu bosses dans la tech, tu sais dĂ©jĂ  que les petites erreurs humaines peuvent avoir des consĂ©quences Ă©normes. Et lĂ , on parle d’un simple fichier de features qui a doublĂ© de taille aprĂšs une modif d’autorisations dans ClickHouse, une base de donnĂ©es colonne open-source hyper performante. RĂ©sultat ? Panne mondiale, sites majeurs HS (Spotify, Discord, ChatGPT), et des milliers de gens en PLS devant leurs Ă©crans. Bref, ça mĂ©rite un dĂ©cryptage.

Le contexte : Cloudflare, c’est quoi ?


Cloudflare, c’est un peu le cerveau d’une grosse partie du web. Ils gĂšrent des services comme la protection anti-bot, le CDN, et plein d’autres trucs qui tournent en edge. Mais quand ça plante, c’est pas juste un site qui bug : c’est carrĂ©ment 20% d’Internet qui se retrouve HS. Et ça, c’est ce qui s’est passĂ© le 18 novembre dernier.

Le truc cool : ClickHouse et les bots


Alors, pourquoi c’est intĂ©ressant pour les geeks comme nous ? Parce que ClickHouse, c’est une DB colonne open-source optimisĂ©e pour l’analytique en temps rĂ©el. Ultra rapide, utilisĂ©e par des boĂźtes comme Uber, eBay, et mĂȘme Cloudflare. Mais lĂ , clairement, ils ont merdĂ©.

  • Une modif « de routine » des autorisations dans ClickHouse a fait doubler la taille d’un fichier de features.
  • Ce fichier, utilisĂ© pour le systĂšme anti-bot, a dĂ©passĂ© les limites mĂ©moire du routage.
  • RĂ©sultat : crash en cascade sur leur rĂ©seau mondial.

Le truc encore plus cool (ou pas), c’est que ce fichier se rĂ©gĂ©nĂ©rait toutes les 5 minutes, crĂ©ant un loop de crash/recovery. Genre, tu rĂ©pares un truc, et BAM, ça recrash direct. Fun, non ?

Les chiffres qui font mal


  • DurĂ©e de la panne : ~3h30 (11h20 → 14h30 UTC).
  • Sites affectĂ©s : ~20% du web (via Cloudflare).
  • Services impactĂ©s : Spotify, Discord, ChatGPT, League of Legends, et mĂȘme des sites de paris comme Bet365.
  • Rapports utilisateurs : 11 000+ sur DownDetector.
  • Cause racine : Un fichier de features passĂ© de X Mo Ă  2X Mo (taille exacte non divulguĂ©e).

Le hic : ce qui a vraiment merdé


Pas de circuit breaker

Un fichier qui dépasse une limite devrait déclencher un rollback immédiat, pas un crash en cascade. Là, clairement, leurs guards étaient pas assez robustes.

Régénération automatique = cauchemar

Le fichier se recréait toutes les 5 minutes, donc impossible de stabiliser le systÚme sans intervention manuelle. Probablement un cron job ou un cache auto-rafraßchi sans vérification de taille.

Impact sur la réputation

Cloudflare est un SPOF (Single Point of Failure) pour 20% du web. Une panne = effet domino massif.

Coût caché

Pas de chiffres sur les pertes pour les clients, mais Cloudflare offre des crédits en compensation. Franchement, ça reste flou.

Bullshit detector


  • « Modification de routine » : Sous-entend que c’était un changement mineur, mais aucun dĂ©tail sur le processus de review. Genre, y’avait pas de pre-deploy checklist pour les changes DB ?
  • « ProblĂšme rĂ©solu en 3h30 » : Oui, mais avec des rebonds toutes les 5 minutes. Pas une rĂ©solution propre, quoi.
  • « Engagement Ă  amĂ©liorer les protections » : Classique aprĂšs une panne. On verra si ça se concrĂ©tise.

Les leçons à retenir


Si t’es dev ou ops, voici ce que tu peux en tirer :

  • Toujours mettre des limites strictes sur les tailles de fichiers, la mĂ©moire, les requĂȘtes, etc.
  • Circuit breakers > auto-recovery : Ă©vite les loops de crash.
  • Tester les changes DB en staging, mĂȘme pour des « modifs de routine ».

Et maintenant ?


Cloudflare promet des amĂ©liorations, mais franchement, on attend de voir. Ce serait cool qu’ils publient un post-mortem dĂ©taillĂ©, avec des metrics internes (CPU, mĂ©moire, latence) pendant la panne. En attendant, t’as qu’à creuser du cĂŽtĂ© de ClickHouse et voir comment ils gĂšrent leurs guards contre les oversizes.

Allez, dis-moi ce que t’en penses ou si t’as eu des pannes similaires ! đŸ’Ș

(PS : Si tu veux approfondir, jette un Ɠil au post-mortem officiel de Cloudflare quand il sortira. Ou compare avec l’incident Fastly de 2021, c’est assez comparable.)

🚀 Vous avez aimĂ© cet article ?

Partagez-le avec votre réseau.

Tags :

Vous avez aimé cet article ?

Recevez les prochains directement dans votre boĂźte mail.