Výpadek služeb v datacentru Tower - 04.07.2025

Dne 04.07.2025 v došlo v souvislosti s výpadkem elektrické energie, která postihla značnou část ČR, i k výpadků některých serverů, které jsou umístěné v datovém centru Tower Českých Radiokomunikací.

Začátek výpadku: 11:59
Konec výpadku: 12:05
Celková doba: 6 minut

Ovlivněné služby:

Výpadek postihl malou část zákazníků a byl způsoben restartem serverů. Pouze u jednoho zákazníka se výpadek protáhl do 13:08, kvůli úmrtí serveru, který musel být nahrazen náhradním. Náhradní hardware máme připravený v datecentru jako součást naší výpočetní farmy, ze které jej můžeme kdykoliv odebrat. Zákazníky rovnou přesouváme na otestovaný hardware.

Příčina výpadku:

Anomálie na elektrické síti.

Důsledky výpadku:

Vyjma nedostupnosti služeb nedošlo k žádnému poškození ani ztrátě dat. Služby z valné většiny nastartovaly automaticky. V malém množství případů jsme zákazníkům pomohli se startem kvůli problémům se závislostmi na aplikační úrovni.

Podrobnější rozbor

Protože nás každý výpadek velmi mrzí, tak nás zajímá příčina a snažíme se najít ponaučení, aby k podobnému výpadku v budoucnu nedošlo. V úzké spolupráci s techniky datového centra ČRA situaci řešíme dál.

Celkem došlo k výpadku 25 serverů a úmrtí jednoho. Servery byly umístěny v následujících rackcích:

  • Sál DC3, rack 1 - 18 serverů
  • Sál DC3, rack 2 - 5 serverů
  • Sál DC3, rack 3 - 1 server
  • Sál DC2, rack 1 - 1 server

Původně jsme si mysleli, že se výpadek týká kompletně 2 racků, ale statistika výše nám ukazuje, že ovlivněn byl i server ve 3. racku a dokonce i na jiném sále. Navíc se výpadek netýkal všech serverů a už vůbec ne TOR switchů.

Z monitoringu jsme také rychle viděli, že se restartovaly jen 1U servery. Problém se netýkal storage serverů ani vícežiletkových serverů.

Podívali jsem se na statistiku tedy z jiného pohledu - jaké napájecí zdroje jsou použité v postižených serverech:

  • 24x PWS-504P-1R
  • 1x PWS-706P-1R

Pro jistotu jsme zkontrolovali data z dalších serverů a v žádném serveru, který zůstal běžet, nebyl použit napájecí zdroj PWS-504P-1R. Našli jsme dalších 11 serverů se zdroji PWS-706P-1R, takže u tohoto jednoho kusu doufáme, že se jedná o chybu statistiky. U dalších 1U serverů používáme také zdroje PWS-704P-1R, PWS-601A-1R a další, kterých se problém také vůbec netýkal.

HOLD UP TIME

Jedná se o čas, který je napájecí zdroj schopný udržet napětí na výstupu v případě, kdy dojde k výpadku napájení na vstupu.

Doufali jsme, že třeba zde nalezneme odpověď, kdy postižené zdroje budou mít tento čas výrazně nižší než zdroje serverů, které výpadek nepostihl. Ale zdá se, že zde příčina není. Technická specifikace zdroje PWS-504P-1R

V tomto případě výrobce udává hodnotu: PWOK 11ms at 75% of max Loading, 12V 12ms at 75% of max loading.

Porovnali jsme to s dalšími zdroji:

  • PWS-704P-1R: PWOK 11ms at 75% of max Loading, 12V 12ms at 75% of max loading
  • PWS-706P-1R: PWOK 16ms at 75% of max Loading, 12V 17ms at 75% of max loading
  • PWS-601A-1R: DC GOOD 11ms at 75% Loading, 12V 12.2ms at 75% loading
  • PWS-2K04A-1R: PWOK 10ms at 75% of max Loading, 12V 11ms at 75% of max loading
  • PWS-920P-SQ: PWOK 17ms at 75% of max Loading

Ze sesbíraných údajů se nám ale nezdá, že by měly tyto zdroje hodnotu, která by výrazně vybočovala proti ostatním. Všechny servery měly v době výpadku navíc různou zátěž od 50W do 300W. Takže ani podle zátěže nevidíme souvislost.

Závěr

Ze statistiky si troufáme tvrdit, že zdroje PWS-504P-1R jsou příčinou této nepříjemné situace. Co jsme zatím nezvážili je, že by to mohla být ještě power distribution unit uvnitř serveru, která se stará o přenos energie ze zdrojů do dalších komponent uvnitř serveru. Z běžících systémů se ale bohužel nedokážeme dotázat na konkrétní typ v jednotlivých serverech, takže tuto část nedokážeme vyhodnotit.

Proč konkrétně došlo k restartu serverů zatím bohužel nevíme a obávám se, že tak podrobně problém nebudeme schopni analyzovat. Ale už teď víme, že nás čeká výměna postižených serverů, abychom dalšímu podobnému incidentu předešli.

Tyto zdroje máme dlouhodobě otestované. Výpadků jednotlivých napájecích větví jsme měli v minulosti několik a vždy se tyto napájecí zdroje chovaly správně. Zdá se, že tentokrát se došlo k souběžnému přepnutí obou napájecích větví na UPS, což se do teď asi ještě nestalo, a objevili jsme problémovou situaci, která se ale zároveň velmi těžce testuje. V tomto bohužel plně věříme výrobcům.

Tyto zdroje používáme ještě v serverech umístěných v TTC1, kde k restartu nedošlo u žádného serveru. V dalších datacentrech tyto zdroje nemáme, takže bohužel statistiku nemůžeme víc rozšířit.

Poděkování

Zvláštní poděkování patří všem ovlivněným zákazníkům. Všichni při této nepřijemné situaci udrželi chladnou hlavu a maximálně se soustředili na zprovoznění služeb. Je to vlastnost, která i nám velmi pomohla soustředit se na práci a minimalizovat dopad na služby.