Trace Id is missing
Naar hoofdinhoud gaan

Het team van Microsoft Xbox omarmt de SRE-rol voor het bouwen van gamestreaming

Bekijk hoe het bedrijfsteam en ontwikkelaars vertrouwde partners werden om een wereldwijd gedistribueerde Kubernetes-implementatie te ontwikkelen.

De uitdaging: Een proces voor wereldwijde schaal maken

Net als bij veel operationele teams besteedde ook het team van Xbox Reliability Engineering and Operations (xREO) meestal veel tijd aan het uitvoeren van herhalende, handmatige taken om datacentra te onderhouden, nieuwe code te implementeren en te reageren op problemen die waren ontstaan door het werk in een monolithische, rigide architectuur die ze niet hadden ontworpen. Door hun inspanningen bleef de service actief voor miljoenen actieve maandelijkse abonnees in meer dan veertig landen en regio's. Toen de teamleden echter de opdracht kregen om project xCloud te ondersteunen, een gamestreamingervaring met extreem lage latentievereisten voor gamers over de hele wereld, werd duidelijk dat ze uit hun traditionele technische servicerol moesten stappen, teamsilo's moesten opsplitsen en een nieuwe werkwijze moesten vinden.

Een persoon aan het woord in een vergaderruimte

De uitdaging: Aanpassen aan een cloudmodel

"Zelfs kleine wijzigingen vormden een aanzienlijk risico, wat betekende dat we veel tijd kwijt waren aan het oplossen van problemen. Onze manier van werken was voornamelijk reactief en daar konden we niet veel aan doen."

James Whitesides, SRE PM, Xbox Reliability and Operations

Schaaloplossing door samenwerking en automatisering

Vroeg in het project heeft het ontwikkelteam geconstateerd dat ze xREO nodig hadden om een nieuwe architectuur te ontwerpen en te compileren die zou profiteren van het wereldwijde bereik van Azure. De teams begonnen met containers om de servicecode van de infrastructuur te ontkoppelen en Kubernetes als de voor de hand liggende keuze voor indeling. Ze selecteerden de volledig beheerde Azure Kubernetes Service (AKS) om zich van een hoop complexiteit van het beheer te ontdoen.

Maar zelfs met dit gestroomlijnde systeem was het aantal handmatige taken dat is vereist om elk Kubernetes-cluster te bouwen al snel overweldigend voor het xREO-team. Voor herhaalbaarheid en automatisering besloten ze tot het compileren van een pijplijn op basis van continue integratie/continue levering (CI/CD) met Azure Pipelines met behulp van sjablonen van Azure Resource Manager om snel resources te kunnen inrichten.

De uitdaging: Aanpassen aan een cloudmodel

"Nu, in de SRE-rol, bouwen we het platform met de ontwikkelaars en maken we deel uit van hun implementatieproces. We zijn echt gericht op het bouwen en verbeteren van controlelijsten in plaats van het zo snel mogelijk afwerken van controlelijsten."

James Whitesides, SRE PM, Xbox Reliability and Operations

Een nieuwe rol aannemen met een nieuwe missie

De CI/CD-pijplijn implementeert tegenwoordig meer dan 35 microservices die gebaseerd zijn op AKS en afhankelijk zijn van meer dan 100 resources (per regio) in talloze Azure-regio's, met nog meer op komst. Om een nieuwe regio te implementeren, voegt het team zes regels code toe en wordt gewacht tot de resources zijn aangehaakt.

Aangezien de implementatie volledig is geautomatiseerd, is de rol van het xREO-team verschoven naar SRE (Site Reliability Engineering) en besteedt het vooral tijd aan het maken van nieuwe hulpmiddelen in plaats van het oplossen van problemen. Ze worden vaak geraadpleegd als vertrouwde partner van het ontwikkelteam en zijn gericht op het leveren van proactief, hoogwaardig en dankbaar werk.