19.06.2025. ·
3 min

Google Cloud kvar koji je zaustavio pola interneta: Kako je jedan red koda srušio globalne servise

HelloWorld
0
Google Cloud kvar koji je zaustavio pola interneta: Kako je jedan red koda srušio globalne servise

Google Cloud je 12. juna 2025. doživeo jedan od najmasovnijih kvarova u svojoj istoriji, koji je trajao preko sedam sati i pogodio više od 50 servisa na globalnom nivou. Posledice su bile katastrofalne – od Spotify i Discord do Cloudflare servisa, milioni korisnika širom sveta ostali su bez pristupa ključnim aplikacijama.

Sada kada je Google objavio detaljan izveštaj incidenta, jasno je da se radi o grešci koja je mogla biti sprečena osnovnim programerskim praksama. Uzrok kvara bio je nedostatak error handling-a u kodu koji je dodavan 29. maja 2025.

Tehnička analiza uzroka kvara: Service Control i quota management

Koreni uzrok kvara leži u Google-ovom Service Control sistemu, koji je odgovoran za upravljanje API zahtevima i proveru kvota. 29. maja 2025. dodata je nova funkcionalnost za dodatne quota policy provere, ali kod nije imao odgovarajuće rukovanje greškama niti feature flag zaštitu.

Problem se manifestovao tek 12. juna oko 10:45 PDT kada je u regionalne Spanner tabele unesena policy promena koja je sadržavala nenamerne prazne vrednosti. Zbog globalne prirode quota management sistema, ovi podaci su se replicirali globalno u roku od sekundi.

Kada je Service Control pokušao da obradi ove podatke sa praznim poljima, došlo je do null pointer exception-a koji je uzrokovao crash loop binarne aplikacije. Pošto se quota management podaci propagiraju globalno praktično istog trenutka, za razliku od feature flag promena koje se uvode postupno po regionima, kvar se proširio simultano na sve Google Cloud regione.

Google Site Reliability Engineering tim počeo je da reaguje za svega dva minuta, identifikovao uzrok za 10 minuta, a "crveno dugme" za isključivanje problematičnog sistema bilo je spremno za 25 minuta. Ipak, potpun oporavak manjih regiona trajao je 40 minuta, dok su veći regioni poput us-central1 bili pogođeni skoro tri sata.

Domino efekat: Kada Google pada, pada i pola interneta

Ono što čini ovaj kvar posebno značajnim jeste masivnost domino efekta. Google Cloud nije samo cloud platforma – to je kritična infrastruktura na kojoj počiva veliki deo modernog interneta.

Cloudflare, jedan od najvećih CDN i sigurnosnih provajdera, potvrdio je da je njihov kvar direktno vezan za Google Cloud probleme. "Ovo je Google Cloud kvar", rekao je portparol Cloudflare-a, objašnjavajući da ograničen broj njihovih servisa koristi Google Cloud i da su zato bili pogođeni.

Lista pogođenih servisa čita se kao "ko je ko" tehnološke industrije:

  • Spotify (preko 678 miliona korisnika)
  • Discord
  • Snapchat
  • AI
  • Cursor i Replit (AI coding platforme)
  • OpenAI servisi (uključujući ChatGPT probleme sa prijavljivanjem)
  • Google Workspace aplikacije (Gmail, Drive, Docs, Calendar)

ThousandEyes analiza pokazuje da je kvar počeo oko 18:00 UTC i da je pogodio aplikacije u svim Google Cloud regionima simultano, što je retko viđen scenario u cloud computing industriji.

Šta Google obećava: Lekcije i budući koraci

U svom izveštaju o incidentu, Google priznaje odgovornost i obećava konkretne korake za sprečavanje sličnih situacija:

Poboljšanje development praksi:

  • Striktnije static analysis i testing procedure
  • Obavezna feature flag zaštita za sve kritične promene
  • Modularizacija Service Control arhitekture za bolje izolovanje kvarova

Poboljšanje komunikacije:

  • Garantovano funkcionisanje komunikacione infrastrukture tokom kvarova
  • Transparentnija i češća komunikacija sa klijentima
  • Brže objavljivanje izveštaja o incidentima

Google takođe priznaje da je brzina razvoja dovela do skraćivanja procedura, što je deo industrije prepoznao kao sistemski problem. Komentari na Hacker News-u ukazuju da je "query of death" poznati failure mode za C++ servere i da je ovakav kvar bio neizbežan.

Posebno je zabrinjavajuće što se quota management podaci propagiraju globalno instantno, za razliku od drugih promena koje se uvode postupno. Google sada obećava da će preispitati ovu praksu i uvesti postupnu propagaciju i za metadata promene.

Ovaj incident predstavlja važan podsetnik da čak i tehnološki giganti nisu imuni na osnovne programerske greške, a kada se dogode na ovakvom nivou, posledice mogu biti globalne. Za developere, ovo je jasna lekcija o važnosti error handling-a, feature flag-ova i postupnog uvođenja promena u produkciju.

 

Oceni tekst

0

0 komentara

Iz ove kategorije

Svi članci sa Bloga

Slični poslovi

Povezane kompanije po tagovima