Navigation überspringen

Spielstreaming durch den Wechsel des Microsoft Xbox-Teams zur SRE-Rolle

Informieren Sie sich, wie das Betriebsteam und Entwickler vertrauenswürdige Partner für das Entwerfen einer global verteilten Kubernetes-Bereitstellung wurden.

Weiterlesen

Die Herausforderung: Prozess für die globale Skalierung erstellen

Wie viele andere Betriebsteams verbrachte auch das Xbox Reliability Engineering and Operations (xREO)-Team viel Zeit mit sich wiederholenden, manuellen Aufgaben, um Rechenzentren zu warten, neuen Code bereitzustellen und auf Probleme zu reagieren, die sich aus der Arbeit in einer monolithischen, starren Architektur ergaben, die nicht von ihnen entworfen wurde. Sie sorgten dafür, dass der Dienst für Millionen aktiver monatlicher Abonnenten in mehr als 40 Ländern und Regionen funktionierte. Als das Team jedoch mit der Aufgabe betraut wurde, das Projekt xCloud zu unterstützen, eine Spielstreaming-Erfahrung mit extrem niedrigen Latenzanforderungen für Spieler auf der ganzen Welt, wurde klar, dass sie aus ihrer traditionellen Rolle als Service-Techniker heraustreten, Team-Silos aufbrechen und ihre Arbeitsweise neu erfinden mussten.

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."

James Whiteside, SRE-PM, Xbox Reliability and Operations

Skalierungsmöglichkeiten durch Zusammenarbeit und Automatisierung

Bereits in der Anfangsphase des Projekts erkannte das Entwicklungsteam, dass es xREO hinzuziehen musste, um eine neue Architektur zu entwerfen und aufzubauen, die die globale Reichweite von Azure nutzen würde. Zunächst wurde mit Containern begonnen, um den Code des Dienstes von der Infrastruktur zu entkoppeln, und Kubernetes war die offensichtliche Wahl für die Orchestrierung. Das Team entschied sich für den vollständig verwalteten Azure Kubernetes Service (AKS), um einen Großteil der Verwaltungskomplexität zu eliminieren.

Aber selbst mit diesem optimierten System war das xREO-Team mit der Menge der manuellen Aufgaben, die für den Aufbau jedes Kubernetes-Clusters erforderlich waren, schnell überfordert. Um Wiederholbarkeit und Automatisierung zu gewährleisten, entschied man sich für den Aufbau einer Pipeline für kontinuierliche Integration/ kontinuierliche Bereitstellung (CI/CD) mit Azure Pipelines, die Azure Resource Manager-Vorlagen zur schnellen Bereitstellung von Ressourcen verwendet.

"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."

James Whiteside, SRE-PM, Xbox Reliability and Operations

Neue Rolle für neue Aufgaben

Heute werden mit der CI/CD-Pipeline mehr als 35 AKS-basierte Microservices bereitgestellt, die auf mehr als 100 Ressourcen (pro Region) für eine steigende Anzahl von Azure-Regionen basieren. Das Team fügt für die Bereitstellung einer neuen Region sechs Codezeilen hinzu und wartet auf die Bereitstellung der Ressourcen.

Mithilfe der vollständig automatisierten Bereitstellung hat das xREO-Team zur SRE-Rolle (Site Reliability Engineering) gewechselt und kann jetzt einen Großteil der Zeit in das Erstellen neuer Tools investieren, anstatt Probleme zu beheben. Das Team wird häufig als vertrauenswürdiger Partner vom Entwicklungsteam kontaktiert. Der Fokus liegt dabei auf der proaktiven, qualitativ hochwertigen und erfolgsversprechenden Arbeit.

Nähere Informationen zur Transformation des Teams in eine SRE-Rolle

Weiterlesen
Können wir Ihnen helfen?