Hopp over navigasjon

Microsoft Xbox-teamet tar på seg SRE-rollen for å bygge en strømmingstjeneste for spill

Se hvordan driftsteamet og utviklere ble pålitelige partnere for utvikling av en globalt distribuert Kubernetes-distribusjon.

Les hele historien

Utfordringen: Opprette en prosess for global skalering

I likhet med mange driftsteam brukte Xbox Reliability Engineering og Operations (xREO)-teamet mye tid på å utføre repetitive, manuelle oppgaver for å vedlikeholde datasentre, distribuere ny kode og reagere på hendelser som oppsto ved å arbeide i en monolittisk, rigid arkitektur de ikke hadde utviklet selv. Deres innsats holdt tjenestene i gang for millioner av aktive månedlige brukere, i mer enn 40 land og områder. Da teamet fikk oppgaven med å støtte xCloud-prosjektet, en spillstrømmeopplevelse med krav til ekstremt lav ventetid for spillere over hele verden, ble det tydelig at de måtte ta et skritt ut av sin tradisjonelle tjenesteteknikkrolle, bryte ned teamsiloer og gjenoppfinne måten de jobbet på.

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."

James Whitesides, SRE PM, Xbox-pålitelighet og -drift

Opprette en skalerbar løsning ved hjelp av samarbeid og automatisering

Tidlig i prosjektet så utviklingsteamet behovet for å hente inn xREO for å få hjelp til å utvikle og bygge en ny arkitektur som kunne utnytte Azures globale rekkevidde. Med utgangspunkt i beholdere for å koble tjenestekoden fra infrastrukturen, og Kubernetes som et åpenbart valg for iverksetting, valgte teamene den totaladministrerte Azure Kubernetes Service (AKS) for å fjerne mye av administrasjonskompleksiteten.

Selv med dette strømlinjeformede systemet ble volumet av manuelle oppgaver som kreves for å bygge hver Kubernetes-klynge, raskt for stort for xREO-teamet. For enklere gjentakelse og automatisering bestemte de seg for å utvikle et datasamlebånd for kontinuerlig integrasjon/kontinuerlig levering (CI/CD) med Azure Pipelines ved hjelp av maler i Azure Resource Manager, for rask klargjøring av ressurser.

"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."

James Whitesides, SRE PM, Xbox-pålitelighet og -drift

En ny rolle med et nytt oppdrag

I dag kan CI/CD-datasamlebåndet distribuere mer enn 35 AKS-baserte mikrotjenester som er avhengige av mer enn 100 ressurser (per område) til flere Azure-områder, med mer på vei. For å distribuere et nytt område, legger teamet til seks kodelinjer og venter på at ressursene skal starte opp.

Med distribusjonen fullstendig automatisert, har xREO-teamet gått over til en rolle for utvikling av tjenestepålitelighet (SRE), og de bruker mesteparten av tiden til å opprette nye verktøy i stedet for å løse problemer. De blir ofte konsultert som en pålitelig partner av utviklingsteamet og deres fokus er på proaktivt, verdiskapende og veldig belønnende arbeid.

Ta en nærmere titt på teamets transformasjon til en SRE-rolle.

Les hele historien
Kan vi hjelpe deg?