Tým Microsoft Xbox přebírá roli SRE a vytváří streamování her

Zjistěte, jak se provozní tým a vývojáři stali důvěryhodnými partnery pro návrh globálně distribuovaného nasazení Kubernetes.

Výzva: Vytvoření procesu pro globální škálování

Stejně jako řada provozních týmů i tým xREO (Xbox Reliability Engineering and Operations) trávil mnoho času prováděním opakujících se ručních úloh v souvislosti s údržbou datacenter, nasazováním nového kódu a reagováním na problémy, ke kterým docházelo kvůli práci na monolitické rigidní architektuře, kterou navrhl někdo jiný. Svou usilovnou prací zajišťoval provoz služby pro miliony aktivních měsíčních předplatitelů ve více než 40 zemích a oblastech. Když však tým dostal za úkol zajistit podporu projektu xCloud, služby streamování her s požadavky na mimořádně nízkou latenci pro hráče po celém světě, ukázalo se, že musí vystoupit ze své tradiční technické role, zbořit hranice mezi týmy a zcela změnit způsob práce.

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."

James Whitesides, projektový manažer SRE, tým xREO (Xbox Reliability and Operations)

Řešení pro škálování prostřednictvím spolupráce a automatizace

Vývojový tým si v rané fázi projektu uvědomil, že musí přizvat tým xREO, aby mu pomohl s návrhem a vytvořením nové architektury, která dokáže využít globální dosah Azure. Tým začal oddělením kódu služby od infrastruktury s využitím kontejnerů, k orchestraci pochopitelně využil Kubernetes a nakonec zvolil plně spravovanou službu Azure Kubernetes Service (AKS), která značně zjednodušuje složitou správu.

I s tímto zjednodušeným systémem však objem ručních úloh potřebných k vytvoření každého clusteru Kubernetes začal týmu xREO rychle přerůstat přes hlavu. Kvůli zajištění opakovatelnosti a automatizace se rozhodl vytvořit kanál kontinuální integrace a průběžného doručování (CI/CD) s využitím služby Azure Pipelines a k rychlému zřizování prostředků využít šablony Azure Resource Manageru.

"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."

James Whitesides, projektový manažer SRE, tým xREO (Xbox Reliability and Operations)

Nová mise – nová role

V současné době kanál CI/CD nasazuje více než 35 mikroslužeb založených na AKS, které se spoléhají na více než 100 prostředků (na oblast), do celé řady oblastí Azure a další se připravují. Když chce tým nasadit novou oblast, přidá šest řádků kódu a počká na aktivaci prostředků.

Díky plně automatizovanému nasazení přešel tým xREO na roli SRE (Site Reliability Engineering) a místo řešení problémů může většinu času věnovat vytváření nových nástrojů. Zaměřuje se na aktivní, vysoce prospěšnou práci s vysokou hodnotou a vývojový tým se na něj často obrací jako na důvěryhodného partnera.

Bližší pohled na transformaci týmu na roli SRE

Přečíst si celý příběh