Microsoft Xbox-teamet favner SRE-rollen i forbindelse med bygningen af spilstreaming
Se, hvordan driftsteamet og udviklere er blevet partnere, der er tillid til i forbindelse med udvikling af en globalt distribueret Kubernetes-udrulning.
Læs hele historienUdfordringen: Skabe en proces til global skalering
Som mange andre driftsteams brugte xREO-teamet (Xbox Reliability Engineering and Operations) meget tid på at udføre gentagne, manuelle opgaver for at vedligeholde datacentre, udrulle ny kode og reagere på problemer, der opstod som følge af at arbejde i en monolitisk, stiv arkitektur, som de ikke havde designet. Deres indsats holdt tjenesten kørende for millioner af aktive månedlige abonnenter i mere end 40 lande og områder. Men da teamet fik til opgave at understøtte projekt xCloud, en spilstreamingoplevelse med ekstremt lave ventetidskrav til gamere over hele verden, blev det klart, at de skulle træde uden for deres traditionelle tjeneste-teknikerrolle, nedbryde teamsiloer og genopfinde den måde, de arbejdede på.

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."
James Whitesides, SRE PM, Xbox Reliability and Operations
Løsninger i stor skala via samarbejde og automatisering
Tidligt i projektet erkendte udviklingsteamet, at de havde brug for xREO for at hjælpe med at designe og opbygge en ny arkitektur, der vil drage fordel af den globale rækkevidde af Azure. Fra og med objektbeholdere, der skulle fjerne tjenestekoden fra infrastrukturen og Kubernetes som det tydelige valg for orkestrering, valgte teamene den fuldt administrerede Azure Kubernetes Service (AKS) for at eliminere meget af administrationskompleksiteten.
Men selv med dette strømlinede system, har mængden af manuelle opgaver, der kræves for at opbygge hver Kubernetes-klynge, hurtigt overvældet xREO-teamet. Til gentagelse og automatisering har de besluttet at opbygge en løbende integrations-/fortløbende leveringspipeline (CI/CD) med Azure Pipelines ved hjælp af Azure Resource Manager-skabeloner til hurtigt at klargøre ressourcer.
"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."
James Whitesides, SRE PM, Xbox Reliability and Operations
En ny rolle med en ny mission
I dag udruller CI/CD-pipelinen mere end 35 AKS-baserede microservices, der er afhængige af mere end 100 ressourcer (pr. område), i flere Azure-områder, og der er flere på vej. Hvis du vil udrulle et nyt område, tilføjer teamet seks linjers kode og venter på, at ressourcerne opskaleres.
Når udrulningen er fuldautomatisk, er xREO-teamet flyttet til en SRE-rolle (Site Reliability Engineering), og de bruger det meste af tiden på at oprette nye værktøjer i stedet for at løse problemer. Som en del af udviklingsteamet konsulteres de ofte som en partner, der er tillid til, og deres fokus er på proaktivt og givende arbejde med en høj værdi.