Trace Id is missing
Přeskočit na hlavní obsah

Tým Microsoft Xbox přebírá roli SRE a vytváří streamování her

Zjistěte, jak se provozní tým a vývojáři stali důvěryhodnými partnery pro návrh globálně distribuovaného nasazení Kubernetes.

Výzva: Vytvoření procesu pro globální škálování

Stejně jako řada provozních týmů i tým xREO (Xbox Reliability Engineering and Operations) trávil mnoho času prováděním opakujících se ručních úloh v souvislosti s údržbou datacenter, nasazováním nového kódu a reagováním na problémy, ke kterým docházelo kvůli práci na monolitické rigidní architektuře, kterou navrhl někdo jiný. Svou usilovnou prací zajišťoval provoz služby pro miliony aktivních měsíčních předplatitelů ve více než 40 zemích a oblastech. Když však tým dostal za úkol zajistit podporu projektu xCloud, služby streamování her s požadavky na mimořádně nízkou latenci pro hráče po celém světě, ukázalo se, že musí vystoupit ze své tradiční technické role, zbořit hranice mezi týmy a zcela změnit způsob práce.

Osoba mluvící v jednací místnosti

Výzva: Přizpůsobení se provoznímu modelu cloudu

"I malé změny představovaly značné riziko, což znamenalo, že jsme strávili spoustu času hašením požárů. Náš provozní režim byl většinou reaktivní a neměli jsme moc možností s tím něco dělat."

James Whitesides, projektový manažer SRE, tým xREO (Xbox Reliability and Operations)

Řešení pro škálování prostřednictvím spolupráce a automatizace

Vývojový tým si v rané fázi projektu uvědomil, že musí přizvat tým xREO, aby mu pomohl s návrhem a vytvořením nové architektury, která dokáže využít globální dosah Azure. Tým začal oddělením kódu služby od infrastruktury s využitím kontejnerů, k orchestraci pochopitelně využil Kubernetes a nakonec zvolil plně spravovanou službu Azure Kubernetes Service (AKS), která značně zjednodušuje složitou správu.

I s tímto zjednodušeným systémem však objem ručních úloh potřebných k vytvoření každého clusteru Kubernetes začal týmu xREO rychle přerůstat přes hlavu. Kvůli zajištění opakovatelnosti a automatizace se rozhodl vytvořit kanál kontinuální integrace a průběžného doručování (CI/CD) s využitím služby Azure Pipelines a k rychlému zřizování prostředků využít šablony Azure Resource Manageru.

Výzva: Přizpůsobení se provoznímu modelu cloudu

"Teď v roli SRE vytvoříme platformu s vývojáři a jsme součástí procesu jejich nasazení. Zaměřujeme se na vytváření a vylepšování, nikoli na rychlé řešení kontrolních seznamů."

James Whitesides, projektový manažer SRE, tým xREO (Xbox Reliability and Operations)

Nová mise – nová role

V současné době kanál CI/CD nasazuje více než 35 mikroslužeb založených na AKS, které se spoléhají na více než 100 prostředků (na oblast), do celé řady oblastí Azure a další se připravují. Když chce tým nasadit novou oblast, přidá šest řádků kódu a počká na aktivaci prostředků.

Díky plně automatizovanému nasazení přešel tým xREO na roli SRE (Site Reliability Engineering) a místo řešení problémů může většinu času věnovat vytváření nových nástrojů. Zaměřuje se na aktivní, vysoce prospěšnou práci s vysokou hodnotou a vývojový tým se na něj často obrací jako na důvěryhodného partnera.