Kiderült a Cloudflare leállásának oka, és nem kibertámadás bénította meg a szolgáltatást

A vállalat szerint egy belső rendszerhiba okozta a november 18-i globális leállást – nem pedig külső támadás.

Kévés Bence Mihály
Olvasási idő: 4 perc

A Cloudflare részletes beszámolót tett közzé arról, miért bénult meg világszerte több szolgáltatás is, és miért vált elérhetetlenné több millió weboldal. A kimaradás több mint három órán át tartott, és ez volt a cég legnagyobb leállása 2019 óta. A magyarázat szerint nem rosszindulatú támadásról volt szó. Egy adatbázis-jogosultsággal kapcsolatos változtatás indított el egy olyan láncreakciót, amely végül a teljes rendszerösszeomlásához vezetett. A hibát végül sikerült gyorsan azonosítani, így a forgalom fokozatosan normalizálódott. A Cloudflare vezetése most nagyobb biztonsági fékeket és egyszerűbb leállítási protokollokat ígér, hogy a jövőben megelőzzék a hasonló helyzeteket.

Mi okozta valójában a Cloudflare történetének egyik legnagyobb leállását?

A Cloudflare 2025. november 18-i kimaradása globális zavart okozott világszerte, és sokan rögtön kibertámadásra gyanakodtak. A vállalat azonban gyorsan tisztázta, hogy egyetlen rosszindulatú akció sem állt a háttérben. Matthew Prince, a cég társalapító-vezérigazgatója részletes blogposztban magyarázta el: egy adatbázisengedély-változtatás tévesen arra késztette a rendszert, hogy létrehozzon egy „feature file” nevű állományt, amely rövid időn belül megduplázta a méretét. Ez a fájl pedig továbbterjedt a hálózat összes gépére, ahol összeomlást idézett elő. A hibás állomány ötpercenként újragenerálódott, ez pedig folyamatos, változó hibaarányt eredményezett a Cloudflare hálózatán. A cég a kimaradást követő három órán belül helyreállította az alapvető működést, 14:30 körül pedig a forgalom nagy része már normálisan zajlott.

Tünetek: 5xx hibák, megnövekedett késleltetés és túlterhelt CPU-k

A hiba hatása többféle formában jelentkezett. A Cloudflare jelentése szerint drasztikusan megugrott az 5xx-es HTTP hibák száma, ami arra utal, hogy a szerverek nem tudták megfelelően feldolgozni a kéréseket. Emellett a CDN-szolgáltatás válaszideje is jelentősen megnőtt, mivel a problémás fájl hatalmas erőforrásokat kötött le. A hibakeresés során a rendszerek „jelentős teljesítményű CPU-t” emésztettek fel, ami tovább növelte a késlekedést. Érdekesség, hogy még a Cloudflare teljesen különálló státuszoldala is leállt ebben az időszakban – ám a cég szerint ez puszta véletlen volt, nem kapcsolódott a hálózati hibához. A problémák ellenére a Cloudflare viszonylag gyorsan átlátta, mi vezetett a leálláshoz, így a károkat sikerült korlátozni.

A tanulságok: több biztonsági fék, ellenőrzött frissítések és új protokollok

A vállalat elismerte, hogy ilyen szintű szolgáltatáskiesés „elfogadhatatlan”, és több lépést is tesz annak érdekében, hogy a jövőben gyorsabban leállíthassák a hibásan működő funkciókat. A Cloudflare szerint a hasonló incidensek mindig arra késztették őket, hogy még ellenállóbb, stabilabb rendszereket építsenek. A mostani leállás tanulsága: a globálisan terjesztett konfigurációs fájlok hibája percek alatt világméretű problémává válhat, ha nincs megfelelő vészleállítási mechanizmus. A vállalat ígéri, hogy több „globális kill switch” kerül bevezetésre, és szigorúbb kontroll alatt tartják majd azokat a folyamatokat, amelyek több millió szerverre propagálnak frissítéseket. A szolgáltatás időközben teljesen helyreállt, de a Cloudflare szerint a fő cél most az, hogy hasonló hiba többé ne forduljon elő.

Az elmúlt hónapokban ez volt a harmadik nagyobb leállás, amely megbénította a világhálót. Előbb az Amazon Web Service (AWS) adta be a derekát egy hibás DNS-beállítás után, majd a Microsoft Azure bénult meg órákra, most pedig egy közkedvelt és népszerű terhelés-elosztó és DNS-szolgáltatás.

Wide Screen Logo

CÍMKÉK:
Cikk megosztás
×