Přeskočit na hlavní obsah

Tým Microsoft Xbox přebírá roli SRE a vytváří streamování her

Zjistěte, jak se provozní tým a vývojáři stali důvěryhodnými partnery pro návrh globálně distribuovaného nasazení Kubernetes.

Přečíst si celý příběh

Výzva: Vytvoření procesu pro globální škálování

Stejně jako spousta jiných provozních týmů i tým xREO (Reliability Engineering and Operations) pro Xbox strávil hodně času prováděním opakujících se ručních úloh při údržbě datových center, nasazování nového kódu a reakcí na problémy, které vznikaly při práci v monolitické, rigidní architektuře, kterou navrhli jeho předchůdci. Úsilí členů týmu udržovalo v chodu službu pro miliony aktivních měsíčních předplatitelů ve více než 40 zemích a oblastech. Když ale tým dostal za úkol podporovat project xCloud, prostředí pro streamování her s extrémně nízkými požadavky na latenci pro hráče po celém světě, bylo jasné, že musí vystoupit ze své tradiční role techniků služeb, rozdělit týmové síly a vymyslet nový způsob práce.

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."

James Whitesides, projektový manažer SRE, tým xREO (Xbox Reliability and Operations)

Řešení pro škálování prostřednictvím spolupráce a automatizace

Už na začátku projektu si vývojový tým uvědomil, že potřebuje zapojit společnost xREO, aby mu pomohla navrhnout a vytvořit novou architekturu, která by využila globální dosah Azure. Počínaje kontejnery, které oddělují kód služby od infrastruktury a Kubernetes jako jasnou volbu pro orchestraci, týmy vybraly plně spravovanou službu Azure Kubernetes Service (AKS) aby eliminovaly velkou část složitosti správy.

I s tímto zjednodušeným systémem však objem ručních úloh potřebných k sestavení každého clusteru Kubernetes tým xREO rychle zahltil. Kvůli opakovatelnosti a automatizaci se členové týmu rozhodli vybudovat kontinuální integraci/průběžné doručování (CI/CD) pomocí Azure Pipelines a k rychlému poskytování zdrojů využívat šablony Azure Resource Manager.

"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."

James Whitesides, projektový manažer SRE, tým xREO (Xbox Reliability and Operations)

Nová mise – nová role

V současné době kanál CI/CD nasazuje více než 35 mikroslužeb založených na AKS, které se spoléhají na více než 100 prostředků (na oblast), do celé řady oblastí Azure a další se připravují. Když chce tým nasadit novou oblast, přidá šest řádků kódu a počká na aktivaci prostředků.

Díky plně automatizovanému nasazení přešel tým xREO na roli SRE (Site Reliability Engineering) a místo řešení problémů může většinu času věnovat vytváření nových nástrojů. Zaměřuje se na aktivní, vysoce prospěšnou práci s vysokou hodnotou a vývojový tým se na něj často obrací jako na důvěryhodného partnera.

Bližší pohled na transformaci týmu na roli SRE

Přečíst si celý příběh