Le 18 novembre 2023, une erreur de configuration dans ClickHouse (base de donnĂ©es open-source) a fait doubler la taille dâun fichier critique chez Cloudflare. RĂ©sultat : une panne mondiale touchant 20% du web, incluant Spotify, Discor
đ 19 novembre 2025
đ Sommaire
đ Le contexte : Cloudflare, câest quoi ?
⥠Le truc cool : ClickHouse et les bots
đĄ Les chiffres qui font mal
En bref
- Un fichier trop gros a fait tomber 20% du web et il fallait sây attendre.
- ClickHouse : la DB open-source qui rock, mais qui a montré ses limites avec une mauvaise config.
- Leçon pour tous les devs/ops : toujours mettre des limites strictes sur les tailles de fichiers en prod.
HĂ© oui, encore une panne massive qui prouve que mĂȘme les gĂ©ants comme Cloudflare ne sont pas infaillibles. Si tu bosses dans la tech, tu sais dĂ©jĂ que les petites erreurs humaines peuvent avoir des consĂ©quences Ă©normes. Et lĂ , on parle dâun simple fichier de features qui a doublĂ© de taille aprĂšs une modif dâautorisations dans ClickHouse, une base de donnĂ©es colonne open-source hyper performante. RĂ©sultat ? Panne mondiale, sites majeurs HS (Spotify, Discord, ChatGPT), et des milliers de gens en PLS devant leurs Ă©crans. Bref, ça mĂ©rite un dĂ©cryptage.
Le contexte : Cloudflare, câest quoi ?
Cloudflare, câest un peu le cerveau dâune grosse partie du web. Ils gĂšrent des services comme la protection anti-bot, le CDN, et plein dâautres trucs qui tournent en edge. Mais quand ça plante, câest pas juste un site qui bug : câest carrĂ©ment 20% dâInternet qui se retrouve HS. Et ça, câest ce qui sâest passĂ© le 18 novembre dernier.
Le truc cool : ClickHouse et les bots
Alors, pourquoi câest intĂ©ressant pour les geeks comme nous ? Parce que ClickHouse, câest une DB colonne open-source optimisĂ©e pour lâanalytique en temps rĂ©el. Ultra rapide, utilisĂ©e par des boĂźtes comme Uber, eBay, et mĂȘme Cloudflare. Mais lĂ , clairement, ils ont merdĂ©.
- Une modif « de routine » des autorisations dans ClickHouse a fait doubler la taille dâun fichier de features.
- Ce fichier, utilisé pour le systÚme anti-bot, a dépassé les limites mémoire du routage.
- Résultat : crash en cascade sur leur réseau mondial.
Le truc encore plus cool (ou pas), câest que ce fichier se rĂ©gĂ©nĂ©rait toutes les 5 minutes, crĂ©ant un loop de crash/recovery. Genre, tu rĂ©pares un truc, et BAM, ça recrash direct. Fun, non ?
Les chiffres qui font mal
- DurĂ©e de la panne : ~3h30 (11h20 â 14h30 UTC).
- Sites affectés : ~20% du web (via Cloudflare).
- Services impactĂ©s : Spotify, Discord, ChatGPT, League of Legends, et mĂȘme des sites de paris comme Bet365.
- Rapports utilisateurs : 11 000+ sur DownDetector.
- Cause racine : Un fichier de features passé de X Mo à 2X Mo (taille exacte non divulguée).
Le hic : ce qui a vraiment merdé
Pas de circuit breaker
Un fichier qui dépasse une limite devrait déclencher un rollback immédiat, pas un crash en cascade. Là , clairement, leurs guards étaient pas assez robustes.
Régénération automatique = cauchemar
Le fichier se recréait toutes les 5 minutes, donc impossible de stabiliser le systÚme sans intervention manuelle. Probablement un cron job ou un cache auto-rafraßchi sans vérification de taille.
Impact sur la réputation
Cloudflare est un SPOF (Single Point of Failure) pour 20% du web. Une panne = effet domino massif.
Coût caché
Pas de chiffres sur les pertes pour les clients, mais Cloudflare offre des crédits en compensation. Franchement, ça reste flou.
Bullshit detector
- « Modification de routine » : Sous-entend que câĂ©tait un changement mineur, mais aucun dĂ©tail sur le processus de review. Genre, yâavait pas de pre-deploy checklist pour les changes DB ?
- « ProblÚme résolu en 3h30 » : Oui, mais avec des rebonds toutes les 5 minutes. Pas une résolution propre, quoi.
- « Engagement à améliorer les protections » : Classique aprÚs une panne. On verra si ça se concrétise.
Les leçons à retenir
Si tâes dev ou ops, voici ce que tu peux en tirer :
- Toujours mettre des limites strictes sur les tailles de fichiers, la mĂ©moire, les requĂȘtes, etc.
- Circuit breakers > auto-recovery : évite les loops de crash.
- Tester les changes DB en staging, mĂȘme pour des « modifs de routine ».
Et maintenant ?
Cloudflare promet des amĂ©liorations, mais franchement, on attend de voir. Ce serait cool quâils publient un post-mortem dĂ©taillĂ©, avec des metrics internes (CPU, mĂ©moire, latence) pendant la panne. En attendant, tâas quâĂ creuser du cĂŽtĂ© de ClickHouse et voir comment ils gĂšrent leurs guards contre les oversizes.
Allez, dis-moi ce que tâen penses ou si tâas eu des pannes similaires ! đȘ
(PS : Si tu veux approfondir, jette un Ćil au post-mortem officiel de Cloudflare quand il sortira. Ou compare avec lâincident Fastly de 2021, câest assez comparable.)
đ Vous avez aimĂ© cet article ?
Partagez-le avec votre réseau.


