Výpadek služeb v datacentru Tower - 04.07.2025

Dne 04.07.2025 v došlo v souvislosti s výpadkem elektrické energie, která postihla značnou část ČR, i k výpadků některých serverů, které jsou umístěné v datovém centru Tower Českých Radiokomunikací.

Začátek výpadku: 11:59
Konec výpadku: 12:05
Celková doba: 6 minut

Ovlivněné služby:

Výpadek postihl malou část zákazníků a byl způsoben restartem serverů. Pouze u jednoho zákazníka se výpadek protáhl do 13:08, kvůli úmrtí serveru, který musel být nahrazen náhradním. Náhradní hardware máme připravený v datecentru jako součást naší výpočetní farmy, ze které jej můžeme kdykoliv odebrat. Zákazníky rovnou přesouváme na otestovaný hardware.

Příčina výpadku:

Anomálie na elektrické síti.

Důsledky výpadku:

Vyjma nedostupnosti služeb nedošlo k žádnému poškození ani ztrátě dat. Služby z valné většiny nastartovaly automaticky. V malém množství případů jsme zákazníkům pomohli se startem kvůli problémům se závislostmi na aplikační úrovni.

Podrobnější rozbor

Protože nás každý výpadek velmi mrzí, tak nás zajímá příčina a snažíme se najít ponaučení, aby k podobnému výpadku v budoucnu nedošlo. V úzké spolupráci s techniky datového centra ČRA situaci řešíme dál.

Celkem došlo k výpadku 25 serverů a úmrtí jednoho. Servery byly umístěny v následujících rackcích:

Sál DC3, rack 1 - 18 serverů
Sál DC3, rack 2 - 5 serverů
Sál DC3, rack 3 - 1 server
Sál DC2, rack 1 - 1 server

Původně jsme si mysleli, že se výpadek týká kompletně 2 racků, ale statistika výše nám ukazuje, že ovlivněn byl i server ve 3. racku a dokonce i na jiném sále. Navíc se výpadek netýkal všech serverů a už vůbec ne TOR switchů.

Z monitoringu jsme také rychle viděli, že se restartovaly jen 1U servery. Problém se netýkal storage serverů ani vícežiletkových serverů.

Podívali jsem se na statistiku tedy z jiného pohledu - jaké napájecí zdroje jsou použité v postižených serverech:

24x PWS-504P-1R
1x PWS-706P-1R

Pro jistotu jsme zkontrolovali data z dalších serverů a v žádném serveru, který zůstal běžet, nebyl použit napájecí zdroj PWS-504P-1R. Našli jsme dalších 11 serverů se zdroji PWS-706P-1R, takže u tohoto jednoho kusu doufáme, že se jedná o chybu statistiky. U dalších 1U serverů používáme také zdroje PWS-704P-1R, PWS-601A-1R a další, kterých se problém také vůbec netýkal.

HOLD UP TIME

Jedná se o čas, který je napájecí zdroj schopný udržet napětí na výstupu v případě, kdy dojde k výpadku napájení na vstupu.

Doufali jsme, že třeba zde nalezneme odpověď, kdy postižené zdroje budou mít tento čas výrazně nižší než zdroje serverů, které výpadek nepostihl. Ale zdá se, že zde příčina není. Technická specifikace zdroje PWS-504P-1R

V tomto případě výrobce udává hodnotu: PWOK 11ms at 75% of max Loading, 12V 12ms at 75% of max loading.

Porovnali jsme to s dalšími zdroji:

PWS-704P-1R: PWOK 11ms at 75% of max Loading, 12V 12ms at 75% of max loading
PWS-706P-1R: PWOK 16ms at 75% of max Loading, 12V 17ms at 75% of max loading
PWS-601A-1R: DC GOOD 11ms at 75% Loading, 12V 12.2ms at 75% loading
PWS-2K04A-1R: PWOK 10ms at 75% of max Loading, 12V 11ms at 75% of max loading
PWS-920P-SQ: PWOK 17ms at 75% of max Loading

Ze sesbíraných údajů se nám ale nezdá, že by měly tyto zdroje hodnotu, která by výrazně vybočovala proti ostatním. Všechny servery měly v době výpadku navíc různou zátěž od 50W do 300W. Takže ani podle zátěže nevidíme souvislost.

Aktualizace 16.07.2025

Jako pravděpodobná příčina neplánovaných restartů některých serverů byl identifikován pokles frekvence elektrické sítě o 3,8 Hz, konkrétně na hodnotu 46,2 Hz.

Tato odchylka se však nedostala mimo synchronizační okno UPS, které bylo v defaultním nastavení UPS Eaton 93PM – konkrétně 50Hz ± 4Hz. V tomto okně se UPS synchronizuje s vnější sítí, aby byl k dispozici bypass UPS. Pokud se frekvence sítě dostane mimo toto okno, tak UPS přejde na provoz z baterií.

V reakci na tuto událost byla upravena konfigurace UPS — rozsah povolené frekvenční odchylky byl zpřísněn na 50 Hz ± 2,5% (tj. 48,75 - 51,25 Hz), aby se předešlo obdobným incidentům při náhlých výkyvech v síti.

Zároveň jsme ve všech dotčených serverech provedli výměnu napájecích zdrojů za silnější modely, které by měly lépe odolávat nestandardním podmínkám v napájení a zvyšují tak celkovou stabilitu systému.

Závěr

Ze statistiky si troufáme tvrdit, že zdroje PWS-504P-1R jsou příčinou této nepříjemné situace. Co jsme zatím nezvážili je, že by to mohla být ještě power distribution unit uvnitř serveru, která se stará o přenos energie ze zdrojů do dalších komponent uvnitř serveru. Z běžících systémů se ale bohužel nedokážeme dotázat na konkrétní typ v jednotlivých serverech, takže tuto část nedokážeme vyhodnotit.

Proč konkrétně došlo k restartu serverů zatím bohužel nevíme a obávám se, že tak podrobně problém nebudeme schopni analyzovat. Pokud máme odhadnout, tak si myslíme, že došlo k velmi krátkému výpadku napájení na obou větví a silnější zdroje to ustály jen díky tomu, že mají větší kapacitory. Už teď víme, že nás čeká výměna postižených serverů, abychom dalšímu podobnému incidentu předešli.

Tyto zdroje máme dlouhodobě otestované. Výpadků jednotlivých napájecích větví jsme měli v minulosti několik a vždy se tyto napájecí zdroje chovaly správně. Zdá se, že tentokrát se došlo k souběžnému přepnutí obou napájecích větví na UPS, což se do teď asi ještě nestalo, a objevili jsme problémovou situaci, která se ale zároveň velmi těžce testuje. V tomto bohužel plně věříme výrobcům.

Tyto zdroje používáme ještě v serverech umístěných v TTC1, kde k restartu nedošlo u žádného serveru. V dalších datacentrech tyto zdroje nemáme, takže bohužel statistiku nemůžeme víc rozšířit.

Poděkování

Zvláštní poděkování patří všem ovlivněným zákazníkům. Všichni při této nepřijemné situaci udrželi chladnou hlavu a maximálně se soustředili na zprovoznění služeb. Je to vlastnost, která i nám velmi pomohla soustředit se na práci a minimalizovat dopad na služby.

Témata

Podobné články