Passer la navigation

L’équipe Microsoft Xbox adopte le rôle Ingénierie de la fiabilité des sites (SRE) pour créer un streaming de jeux

Découvrez comment l’équipe des opérations et les développeurs sont devenus des partenaires de confiance pour concevoir un déploiement Kubernetes distribué à l’échelle mondiale.

En savoir plus

Le défi : Création d’un processus pour une mise à l’échelle mondiale

Like many operations teams, the Xbox Reliability Engineering and Operations (xREO) team used to spend a lot of time performing repetitive, manual tasks to maintain data centers, deploy new code, and react to issues that arose from working in a monolithic, rigid architecture that they didn’t design. Their efforts kept the service running for millions of active monthly subscribers in more than 40 countries and regions. But when the team was tasked with supporting project xCloud, a game streaming experience with extreme low latency requirements for gamers around the world, it became clear that they needed to step outside their traditional service engineering role, break down team silos, and reinvent the way they worked.

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."

James Whitesides, chef de projets SRE , Xbox Reliability et Operations

Résolution des problèmes de mise à l’échelle via la collaboration et l’automatisation

Early in the project, the development team recognized that they needed to bring in xREO to help design and build a new architecture that would take advantage of the global reach of Azure. Starting with containers to decouple the service code from the infrastructure and Kubernetes as the obvious choice for orchestration, the teams selected the fully managed Azure Kubernetes Service (AKS) to eliminate a lot of the management complexity.

Yet even with this streamlined system, the volume of manual tasks required to build each Kubernetes cluster quickly overwhelmed the xREO team. For repeatability and automation, they decided to build a continuous integration/continuous delivery (CI/CD) pipeline with Azure Pipelines, using Azure Resource Manager templates to rapidly provision resources.

"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."

James Whitesides, chef de projets SRE , Xbox Reliability et Operations

Assumer un nouveau rôle avec une nouvelle mission

Aujourd’hui, le pipeline CI/CD déploie plus de 35 microservices basés sur AKS qui s’appuient sur plus de 100 ressources (par région) dans de nombreuses régions Azure, et d’autres sont en cours de déploiement. Pour déployer une nouvelle région, l’équipe ajoute six lignes de code et attend que les ressources s’imposent.

Le déploiement étant entièrement automatisé, l’équipe xREO est passée à un rôle d’ingénierie de la fiabilité des sites (SRE) et passe la plupart de son temps à créer des outils au lieu de résoudre des problèmes. Ils sont fréquemment consultés en tant que partenaires de confiance de l’équipe de développement, et ils se concentrent sur un travail proactif, de grande valeur et très gratifiant.

Examinez de plus près la transformation de l’équipe en un rôle SRE.

En savoir plus