TECH HÍREK – Az AWS leállása kíméletlenül megmutatta a világháló törékenységét.
Az Ars Technica szerint a hétfői üzemszünetet megdöbbentő módon egyetlen szoftverhiba okozta, amelynek hatása az AWS rendszereiben is végigsöpört. A hibát az AWS DNS-kezelő infrastruktúrájában, a DynamoDB-hez kapcsolódó komponensekben azonosították. A DNS-t (Domain Name System) gyakran az internet telefonkönyvéhez hasonlítják: az ember által olvasható domainneveket az automatizált rendszerek által használt IP-címekre fordítja le.
A modern interneten számos szolgáltatásnak (például felhő- és streamingplatformoknak) ugyanazon domainhez több IP-címet kell tudnia hozzárendelni, hogy hatékonyan használhassák a földrajzilag elosztott szervereket. A DNS Enactor, a DynamoDB-ben a zónatáblák frissítéséért felelős komponens szokatlanul nagy késleltetést tapasztalt, és több DNS-végponton is ismételnie kellett a frissítést. Amíg az Enactor „felzárkózott”, a DynamoDB új terveket generált, amelyeket egy másik, időben működő DNS Enactor megpróbált végrehajtani.
Az így létrejött, új DNS-konfigurációt végül egy jelentősen elavult terv írta felül, amikor a késlekedő Enactor utolérte magát, ráadásul átugorva egy, az ilyen hibák megelőzésére szolgáló védelmi mechanizmust is, amely szintén késést szenvedett. A második, időben működő Enactor ezt követően törölte az elavult tervet, miután észlelte annak idejétmúltságát. A következmények AWS-szerte érezhetők voltak, a mérnököknek kézzel kellett diagnosztizálniuk és helyreállítaniuk a rendszert.
Ez újabb emlékeztető arra, mennyire törékeny a világháló, és milyen érzékeny a belső logikai anomáliákra. Egy „egyszerű” hiba képes teljes ökoszisztémákat felforgatni: kevés frusztrálóbb annál, mint amikor papíron mindennek működnie kellene, a gyakorlatban mégsem, és a hardver sem hibás.
Forrás: PCGamer, Ars Technica



