Vlastimil Pečínka (CTO Seznam.cz): Jsme velcí hračičkové. A vlastní datová centra nám to umožňují

Seznam.cz je jednou z mála českých firem, které provozují své vlastní datové centrum. V současnosti se zabydluje v třetí lokalitě, která nese název Ósaka. O tom, co provoz datacenter obnáší a jaké výhody přináší, jsme se bavili s technickým ředitelem Seznamu Vlastimilem Pečínkou.

Být technickým ředitelem Seznamu je pro každého “ajťáka” či člověka, který má kladný vztah k technologiím a imponují mu nuly a jedničky, zajisté práce snů. Seznam.cz každý z nás zná jako nejoblíbenější vyhledávač na českém internetu. Zřejmě jen promile Čechů pak zcela minuly služby jako je Email.cz, Mapy.cz nebo Sbazar.cz.

Už ale jen ti zasvěcenější vědí, že pod vypiplaným frontendem se skrývá obrovský stroj, který je pro Seznam zlatým vejcem. Pro jeho chod totiž vyvíjí a využívá přednostně vlastní řešení, čímž omezuje závislost na produktech třetích stran. Řeč je přitom jak o softwaru, tak i o hardwaru.

„Seznam sice působí na mediálním trhu, ale je furt technologickou firmou. A je faktem, že naše technologie nám poskytují konkurenční výhodu,” vysvětluje v rozhovoru pro Digibiz technický ředitel Seznam.cz a jednatel společnosti Seznam.cz datová centra, s.r.o., Vlastimil Pečínka. Ten letos oslaví už 16 let od doby, kdy jako programátor poprvé přišel do firmy miliardáře Iva Lukačoviče.

A pokud jde o datová centra, právě s nimi má teď Vlastimil Pečínka práce nad hlavu. Seznam přes pět let provozuje vlastní datové centrum Kokura, do toho dlouhá léta využívá pronajaté prostory datacentra Nagano od společnosti O2 a v současnosti k tomu spouští třetí lokalitu Ósaka v jiném datovém centru stejné společnosti. 

„V Ósace bude pouze cloudové řešení, budeme tam budovat hlavně automatizovanou infrastrukturu,” říká Vlastimil Pečínka a ihned dodává, že v plánu je už i výstavba dalšího centra. Nagano totiž do tří let ukončí svůj provoz. 

V současnosti spouštíte novou lokalitu Ósaka v pražských Stodůlkách. Znamená to, že datové centrum Kokura stojící hned vedle dálnice na Mladou Boleslav je kapacitně naplněno?

Kokura kapacitně naplněna není. Ale samozřejmě přemýšlíme o budoucnosti a je nám jasné, že se tam jednou fyzicky nevejdeme. Navíc jedeme v konceptu duality, to znamená, že praktikujeme model active-active side (obě datová centra pracují paralelně a případný výpadek jednoho tím neomezí provoz služeb – pozn. redakce).

A s tím, jak Seznam roste, se obě zmíněná datacentra zaplňují stejně. Tím, že nyní budeme mít společně s pronajatým Naganem dohromady tři datová centra, tento růst v každém z nich zpomalíme a navíc se v součtu dostaneme na nižší kapacitu při zachování odolnosti proti výpadku jednoho datového centra. S třemi datovými centry se ale pro nás hodně věcí mění interně.

CTO Seznam.cz Vlastimil Pečínka. Foto: Seznam.cz

Co přesně?

Není to jen o tom, že dáme server do třetího místa, chceme profitovat z celého trojúhelníku. Jedním z problémů, který v rámci duality řešíme, je, že když něco na lokalitách částečně vypadne, tak máme problém o jedné z nich prohlásit, že právě ona je ta aktivní. To je totiž docela složitý problém.

Zatímco když máte tři lokality nebo obecně lichý počet, tak jsou všechny aplikace  postaveny tak, že na sebe v případě funkčnosti vidí. Pokud však jedna z nich spadne, automaticky se od zbytku odstřihne a stále zbydou dvě hlavní lokality.

Ale hlavní motivací k vybudování nového datacentra bylo, že se do současných datacenter v budoucnu kapacitně nevejdeme. A na trhu nejsou větší datová centra. Musíme se tedy rozprostřít do většího počtu než jen do jednoho či dvou.

Celkové investice na vybudování Kokury činily něco přes 200 milionů korun. Bude podobná investiční náročnost i u Ósaky?

To byla výše investice do samotné budovy a technologií v ní. Dnes se za tyto peníze stejné datové centrum postavit nedá. Ale tu stavbu zatím jen zvažujeme, Ósaka je zatím jen pronájem. Zajímavá je ale úvaha ohledně investice do hardware. Když provozujeme dvě datová centra z pohledu kapacity v poměru 1:1, tak musíme investovat do obou center stejně. Když ale máme tři centra, tak nám teoreticky stačí 50 % hardwaru v každém, čili v součtu 150 % místo 200 %. Což má pozitivní byznysový dopad. 

Samozřejmě u čistě našich center musíme brát v potaz vyšší náklady na provoz a celkovou komplexitu, ale úsporu v investicích do hardwaru v tomto směru určitě vidím.

V datacentru Ósaka bude tedy totéž, co v Kokuře, nebo se bude něčím lišit?

Seznam má velké dědictví ohledně technologií, které jsme tu dlouhá léta budovali. Jde o tzv. legacy prostředí a do toho už pár let také budujeme vlastní cloudové řešení. A v Ósace bude pouze cloudové řešení, budeme tam budovat hlavně automatizovanou infrastrukturu.

Nebude tam tedy ten klasický legacy přístup, tedy tzv. fullstack admini, kteří se starají o vše od serverů až po samotné aplikace.

Datové centrum Kokura v Horních Počernicích.

Jak bude Ósaka kapacitně velká? 

V současné době máme nasmlouvaných 300 kW, do budoucna ale uvidíme, jak porosteme. Teď začínáme s minimem, což znamená asi 4 racky (skříně, v kterých jsou umístěny servery a další zařízení – pozn. redakce). Pro porovnání – v Kokuře máme 200 racků a zhruba 1,1 MW, pokud jde o instalovaný výkon pro IT, a nyní jsme na nějakých 800 kW. Takže jde o zhruba 70% zaplněnost.

Tady chci jen upozornit, že pokud se bavíme o kapacitě datových center, bavíme se o instalovaném výkonu. Pokud jde totiž o náš hardware, tak ten v čase měníme. A jak to tak v technologiích bývá, na nový hardware o stejné kapacitě je nakonec potřeba méně plochy než na ten starší. Takže na menší plochu dáváme více výkonu. Z tohoto důvodu nám nedojde místo v rackách, ale spíše se stane to, že nám nebude stačit elektřina, tedy příkon.

Vlastní datové centrum Kokura provozujete pátým rokem. Překvapilo vás na jeho provozu během této doby něco příjemně či méně příjemně?

Nepříjemně mě nepřekvapilo v podstatě nic. I po pěti letech fungování Kokury z ní máme velkou radost, byl to pro nás dobrý tah.

V ČÍSLECH

Podle Seznamu bylo v rámci předchozího stěhování z Nagana do Kokury přesunuto cca 1750 kusů zařízení, což pro představu znamenalo přesunout více než 26 tun zařízení a propojit je více než 5 kilometry kabelů.

Jaké výhody a nevýhody ze své zkušenosti vidíte v rámci provozu vlastního datového centra? 

Pokud jde o benefity, tak to řeknu tak, že Seznam sice působí na mediálním trhu, ale je furt technologickou firmou. A je faktem, že naše technologie nám poskytují konkurenční výhodu. 

Vlastní datové centrum není pro každého, my jsme ale dorostli do určité velikosti, kdy datacentra potřebujeme. A tím, že datové centrum máme, si v našem byznysu můžeme dovolit věci, které bychom předtím nemohli, což je obrovská deviza. 

Například?

Jde jednak o běžné věci, kdy si například můžeme sami koordinovat servisní zásahy, které mají vliv na dostupnost našich služeb. 

Důležitější věcí pak je, že si můžeme více hrát s ekonomikou celého provozu. Většina z našich hlavních technologií leží ve virtuálu, kde se píše i kód a aplikace. Ale ty někde běží a my jejich dostupnost, a hlavně efektivitu běhu, můžeme uzpůsobovat i ovlivňováním fyzického prostředí, což jde samozřejmě lépe s vlastním datacentrem oproti situaci, kdy jej máte jen v pronájmu.

Je to tedy hlavně o tom, že si v tomto směru můžeme o všem rozhodovat, a to i o klíčových věcech typu výměny samotných serverů. Je otázkou, jestli bychom takto efektivně mohli vyrábět vlastní servery a dávat je do komerčního datového centra. Ne, že to nejde, do Nagana také dáváme naše „montovny” (hardware v podobě serverů a jejich příslušenství vyráběný přímo Seznamem – pozn. redakce), ale už to s sebou přináší určité komplikace typu, že je tam jinak udělaná elektřina a podobně. 

Když to shrnu, vlastní datové centrum nám rozšiřuje možnosti, pokud jde o technologie – a to my máme rádi, protože my jsme velcí hračičkové – a ve finále šetříme na CAPEX (kapitálové výdaje – pozn. redakce). Když firma dosáhne určité velikosti, tak ekonomika funguje zcela odlišně. Děláte to prostě levněji.

Hardwarová platforma Montovna od Seznam.cz.

A v jaké velikosti by firma měla být, aby na tyto benefity dosáhla?

To je dobrá otázka, na kterou je těžké najít správnou odpověď. Slyšel jsem názor, že pokud má firma už menší desítky racků, tak už by mohla uvažovat například o určitém dataroomu, pokud ne přímo o datovém centru.

Když budu mluvit za Seznam, tak my jsme se pro vlastní datové centrum rozhodli, když jsme měli 100 racků. Ono od určité velikosti v pronajatém datacentru stejně všude chodíte s provozovatelem a koukáte mu pod ruce. 

A jednoho dne se probudíte a řeknete si, proč to nedělat po svém, když už tu dovednost máte. 

Datové centrum Nagano od O2 za tři roky skončí se svým provozem a na jeho místě na pražském Žižkově vyroste rezidenční bydlení. Plánujete už nyní stavbu dalšího centra? Nebo jak tuto situaci hodláte řešit?

Není tajemstvím, že jsme před krátkou dobou vypracovali studii proveditelnosti k dalšímu datovému centru. Předtím jsme ale loni na jaře vypsali tendr, v kterém jsme požadovali takový větší dataroom. Po dodavatelích jsme chtěli, aby nám dodali prostor a chlazení, abychom si v něm pak mohli operovat sami. Ukázalo se ale, že takové kapacity, které by vyhovovaly našim potřebám, v republice vlastně vůbec nejsou. My jsme to předtím tušili, ale až tendr nám to potvrdil.

Ne, že by nebyly fyzické prostory, ale všichni provozovatelé by je museli zainvestovat, požadovali by určitou návratnost a podobně. A to je přesně situace, kdy si už dnes po zkušenosti s Kokurou můžeme přesně totéž udělat sami. Nemusíme se pak s nikým dohadovat o nákladech nebo o maržích.

Teď tedy máme studii proveditelnosti a uvidíme, kam se v otázce nového datacentra posuneme. 

Přes vaše centra protékají veškerá data spjatá s byznysem Seznamu. Ať už jde o e-mailové schránky, o služby jako Mapy.cz a podobně. Jaké služby Seznamu jsou datově nejnáročnější?

Je to určitě video, pokud jde o přenášená data. Ale z hlediska nároků na uložená data je to tzv. strojové učení a analytika.

A z pohledu objemu přenášených dat jsou to například i Mapy.cz?

Tam jsou velké objemy dat, pokud jde o snímání ulic, ale to jsou vše interní, tedy offline záležitosti. K uživateli se pak dostanou jen statické dlaždice. Nemám to přesně změřené, ale podle mě Mapy.cz na vrcholných příčkách nebudou, dlaždice se totiž hodně „cachují”. Video jako takové se posílá více dynamicky, je rozsekané na sekundy a na data více náročné.

Stalo se někdy, že se některé datové centrum pod velkým náporem přetížilo a došlo k výpadku?

Kokura nám nevypadla ani jednou. Ale obecně říkám, že jednou se to musí stát každému. Takže se na to vlastně těším, protože pak budu klidnější. (smích)

Ale uživatelé to i v tomto případě vůbec nezaznamenají, protože máme duální datové centrum. A to i v případě údržby, kdy potřebujeme například aktualizovat některé aplikace, tak je prostě v jedné lokalitě odstavíme, vše připravíme a pak přepojíme. 

Jak vůbec v Seznamu řešíte storage dat a práci s nimi?

Když dosáhnete určitého objemu dat, potřebujete už určité dávkování, potřebujete zapojit více serverů do zpracování dat, takže nejde o klasické relační SQL databáze. Ty se v našich očích používají na menší věci – na stavové informace, na předpřipravená data, která se rychle vydávají…

Máme velké Hadoop clustery, ve kterých se zpracovávají velká data. Například, když se připravují data pro cílení nebo určité statistiky.

Velké nároky na data má například naše e-mailová storage, u které historicky používáme naše vlastní řešení s  dedikovanou storage, kdy jsme schopni detekovat například duplicitní přílohy a ukládat je jen jednou.

Další velkou věcí je naše CDN (content delivery network – pozn. redakce), kam dáváme jednak videa, ale i obrázky, které se používají na našich službách, a tím si postupně budujeme obrovský digitální sklad těchto objektů. V ní je jádrem objektový storage SWIFT a nad tím běží nadstavba, která umí například komprimovat videa a tak podobně.

Infografika k vyžívání služby Email.cz z roku 2017. Zdroj: Seznam.cz

Když se podíváme na způsob nakládání s daty a aplikacemi, přešli jste plynule z virtualizace na kontejnerizaci. Můžete vysvětlit hlavní rozdíly?

Virtualizace znamená, že vám na fyzickém hardwaru běží X operačních systémů. Virtualizace je tedy způsob vytvoření určitého izolovaného prostředí, ve kterém ale spustíte celý operační systém. To znamená, že máte jeden fyzický server a na něm spustíte vedle sebe Linux a Windows.

Kontejnerizace znamená, že izolujete pouze část operačního systému, typicky určitou aplikaci. Výhodou je, že nemusíte bootovat celý operační systém, ale jen jeho část. Je to tedy rychlejší. A hlavně tvůrce aplikace ji dodá již nainstalovanou (zapouzdřenou v kontejneru), čímž odpadá mnoho problémů vznikajících ve fázích instalace nebo spuštění v mírně odlišném prostředí.

Kontejnery se hodně přirovnávají k logistice. V počátcích bylo složité zboží přepravovat lodí, pak jej složitě přeložit na koňské spřežení nebo na auto. Existovalo mnoho vícenákladů spojených s různými typy dopravy. V rámci globálního vývoje ale časem přišly standardizované lodní kontejnery pro přepravu zboží, u kterých je jedno, jestli je přeložíte na vlak, auto nebo letadlo.

Na cloud chcete přejít úplně?

Ano, je to náš cíl, ale zatím jsme na něj ještě zcela nepřešli. Jde o dlouhodobý proces. Už přes dva roky budujeme tzv. SCIF, což je zkratka pro Seznam Cloud Infrastructure. Ten nám přináší jeden benefit. Nechci použít slovo agilnost, ale pomáhá nám to zkrátit dobu potřebnou pro launch určité funkcionality do ostrého provozu.

Vlastně všechny věci, které děláme, se snažíme dělat s výhodou našeho SCIFu. Ono to má i jeden sociologický efekt. Přechod na SCIF je určitou změnou. A je vidět, že lidé, kteří už touto změnou prošli, vidí benefity i pro jejich práci. 

Oni se sice na samém začátku musí něčemu novému naučit, ale nakonec z toho benefitují. Poznají totiž, že jim to ve svém důsledku šetří práci. Zjistí, že mají roboty a automaty, které jim pomáhají dostat věci tam, kam se dostat mají. A lidé se pak mohou těšit z toho, co je baví nejvíce. Z psaní programu.

Jsou opravdu všechny vaše technologie vhodné pro SCIF?

To je vlastně i jedním z našich interních témat, jestli jsou všechny naše technologie tzv. cloud ready a hlavně, jestli je výhodné je provozovat cloudově, nebo není. 

A které aplikace je vhodné držet v cloudu a které mimo?

V Kubernetes clusteru (to jsou ty kontejnery) je dobré držet tzv. stateless aplikace. Tedy ty, které nedrží stav. Jde typicky o frontendy, o tvář například naší homepage. Na druhé straně jsou backendy. I pro ně jsou vhodná cloudová řešení, typicky OpenStack nebo klasická virtualizace.

Ve finále v cloudu může skončit opravdu mnoho věcí, v podstatě téměř vše. Naším cílem je tedy opustit to naše legacy prostředí a přejít na jednotnou infrastrukturu, v které budou pracovat jak vývojáři, tak provozáci.

Veškeré vámi vyvinuté aplikace, software či celé prostředí si necháváte jen pro sebe, nebo je poskytujete i třetím stranám?

Nejsme technologická firma v tom smyslu, že bychom naše technologie dávali na trh. Ty nám pomáhají hlavně v konkurenčním boji. Dělat technologie pro trh je jiná disciplína.

A kdybyste objevili opravdu technologickou pecku, ať už z oblasti hardwaru nebo softwaru, nezačali byste ji prodávat či licencovat?

Česko je na takové věci hodně malý trh, to bychom museli jít do globálu. A to je složitější. Sleduji například kluky kolem českého wifi routeru Turrisu. Je obdivuhodné, co dokázali, ale v rámci prosazení se ve světě to nemají vůbec jednoduché.

Když se v závěru obrátíme k budoucnosti. Jak budou podle vás vypadat datová centra za pět deset let? Budou například centralizovaná jako dnes, nebo je spíše patrný trend k jejich decentralizaci?

Nedávno mě oslovila jedna studentka architektury, která v rámci své práce řešila otázku urbanismu ve smyslu projektování datových center. Trend je dnes takový, že se víc a více věcí přesouvá díky virtualizaci a digitalizaci právě do datových center. 

Dnes datové centrum typicky vnímáme jako velké krabice postavené kdesi na periferii. A ta studentka právě řeší, jak taková centra postavit architektonicky jinak, jak řešit odpadní teplo a tak dále… Jak budou vypadat nevím, ale rozhodně jich bude víc a více, protože trend digitalizace je prostě neúprosný. Určitě se bude hodně řešit energetická náročnost a různé způsoby chlazení, protože elektřina se vlastně celá přeměňuje na teplo, datové centrum je vlastně takový radiátor. A to je dnes alfa a omega všeho.

Pak ale může přijít tzv. černá labuť, tedy že se vše začne posouvat zcela jiným směrem. Jako s počítači, které se nám od dob mainframů dostaly prostřednictvím mobilních telefonů až do našich kapes, tak je možné, že v budoucnosti budeme v našich kapsách nosit i část datového centra.