Trace Id is missing
Gå till huvudinnehåll
Azure

Microsoft Xbox-teamet ikläder sig SRE-rollen för att skapa spelströmning

Se hur driftteamet och utvecklarna blev betrodda partner och kunde skapa en globalt distribuerad Kubernetes-distribution.

Utmaningen: Skapa en process för global skala

Precis som många driftsteam så brukade xREO-teamet (Xbox Reliability Engineering and Operations) ägna mycket tid åt återkommande, manuella uppgifter för att underhålla datacentret, distribuera ny kod och reagera på problem som kom av att arbeta i en monolitisk och stel arkitektur de inte hade designat själva. Deras hårda jobb höll tjänsten igång för miljontals aktiva prenumeranter i fler än 40 länder och regioner. Men när teamet fick i uppgift att hjälpa till med projektet xCloud, en spelströmningstjänst med extrema krav på låg latens för spelare världen över blev det uppenbart att de behövde kliva ur den traditionella serviceingenjörsrollen, riva teamets silos och hitta ett nytt sätt att arbeta.

En person som talar i ett mötesrum

Utmaningen: Anpassa till en molndriftsmodell

"Även små ändringar medförde en betydande risk, vilket innebar att vi lade mycket tid på att kontrollera. Vårt driftsätt var mest reaktivt och vi kunde inte göra så mycket åt det."

James Whitesides, SRE PM, Xbox Reliability and Operations

Enklare skalning med samarbete och automatisering

Tidigt i projektet insåg utvecklingsteamet att de behövde använda sig av xREO för att utforma och skapa en ny arkitektur som skulle kunna dra nytta av Azures globala räckvidd. De började med containrar för att koppla bort tjänstens kod från infrastrukturen, och Kubernetes som det uppenbara valet när det gäller orkestrering. Sedan valde teamen det helt hanterade Azure Kubernetes Service (AKS) för att komma undan mycket av komplexiteten i hanteringen.

Till och med i det här strömlinjeformade systemet blev mängden manuella uppgifter när det gällde att skapa de enskilda Kubernetes-klustren snabbt ohanterlig för xREO-teamet. De bestämde sig för att skapa en CI/CD-pipeline medAzure Pipelinesför repeterbarhet och automation, och de använde Azure Resource Manager-mallar för att snabbt kunna etablera resurser.

Utmaningen: Anpassa till en molndriftsmodell

"Nu, i SRE-rollen, skapar vi plattformen med utvecklarna, och vi är en del av deras distributionsprocess. Vi fokuserar på att skapa och förbättra i stället för att bränna ned checklistor."

James Whitesides, SRE PM, Xbox Reliability and Operations

En ny roll med ett nytt uppdrag

I dag distribuerar CI/CD-pipelinen fler än 35 AKS-baserade mikrotjänster som är beroende av över 100 resurser (per region) till en mängd Azure-regioner, och fler är på gång. När en ny region ska distribueras så lägger teamet till sex rader kod och väntar på att resurserna kommer igång.

Eftersom distributionen är helt automatiserad har xREO-teamet bytt till en SRE-roll (site reliability engineering) så att de kan ägna det mesta av tiden åt att lägga till nya funktioner istället för att rätta till problem. De konsulteras ofta som betrodd partner till utvecklingsteamet, och fokus ligger på ett proaktivt, värdefullt och givande arbete.