Zavřít reklamu

Nedávný výpadek Amazon Web Services (AWS) znovu otevřel zásadní otázku: jak dlouho bude digitální infrastruktura světa závislá na jednom jediném bodě selhání? Výpadek, který zasáhl více než 2 500 společností a služeb po celém světě, způsobil škody odhadované na 2,5 miliardy dolarů. A to vše kvůli problémům v jedné serverové oblasti – US-EAST-1 v Severní Virginii. 

Co se vlastně stalo? 

Kritická porucha v síťovém jádru datového centra AWS způsobila selhání systému DNS, tedy „telefonního seznamu“ internetu. Klíčová databázová služba DynamoDB se stala nedostupnou, což vedlo k tomu, že aplikace a služby nemohly najít své datové zdroje. Výsledkem byl řetězový kolaps, který připomínal výpadek elektrické sítě – přetížení z jednoho bodu se rozšířilo do dalších částí systému. 

Obnovení provozu trvalo několik hodin a vyžadovalo manuální zásahy a tzv. „rate limiting“, tedy dočasné zpomalení provozu, aby se infrastruktura stabilizovala. 

AWS

Kdo byl postižen? 

Dopady byly rozsáhlé. Výpadek zasáhl nejen populární aplikace jako Snapchat, Reddit, Fortnite nebo PlayStation Network, ale také kritické služby jako bankovnictví, vzdělávání, dopravu a veřejnou správu. Například britský daňový úřad HMRC, letecké společnosti United Airlines a Delta, nebo vzdělávací platforma Canvas byly dočasně nedostupné. Dokonce selhaly i technologie pro automatické rozhodování ofsajdů v Premier League. 

Co je třeba změnit? 

Zásadní otázkou zůstává, proč je tolik klíčových služeb závislých na jedné serverové oblasti. Historické důvody nestačí jako ospravedlnění pro takovou koncentraci rizika. Jsou dvě hlavní řešení: 

  • Povinná více-regionální architektura – Klíčové služby by měly být provozovány paralelně ve více geografických oblastech, aby bylo možné v případě výpadku okamžitě přepnout na záložní infrastrukturu. 
  • Regulační zásahy – Vlády by měly stanovit přísnější pravidla pro provoz kritických digitálních služeb, včetně požadavků na záložní plány a více-cloudové strategie.

Co může udělat uživatel? 

Jednotlivci by měli zvážit přechod na zařízení, která fungují i bez připojení ke cloudu. Například technologie založené na protokolu Matter umožňují lokální ovládání chytré domácnosti bez závislosti na vzdálených serverech. Dlouhodobě je však klíčové, aby uživatelé požadovali od poskytovatelů vyšší úroveň redundance – a to nejlépe prostřednictvím svých spotřebitelských rozhodnutí. 

Tento incident je dalším důkazem toho, že internetová infrastruktura potřebuje zásadní revizi. Pokud se nic nezmění, budeme i nadále svědky situací, kdy „když AWS zakašle, polovina internetu dostane chřipku“.

Dnes nejčtenější

.