Lewati Navigasi

Tim Microsoft Xbox menggunakan peran SRE untuk membuat streaming game

Lihat bagaimana tim operasi dan pengembang menjadi mitra tepercaya untuk merancang penyebaran Kubernetes yang didistribusikan secara global.

Baca panduan lengkap

Tantangan: Membuat proses untuk skala global

Seperti banyak tim operasi, tim Xbox Reliability Engineering and Operations (xREO) yang digunakan untuk menghabiskan banyak waktu melakukan tugas manual yang berulang guna mempertahankan pusat data, menyebarkan kode baru, dan bereaksi terhadap masalah yang timbul dari bekerja dalam arsitektur monolitik dan kokoh yang tidak didesain. Upaya mereka menjaga layanan berjalan bagi jutaan pelanggan bulanan aktif di lebih dari 40 negara dan kawasan. Tetapi ketika tim ditugaskan untuk mendukung proyek xCloud, pengalaman streaming game dengan persyaratan latensi sangat rendah untuk pemain di seluruh dunia, menjadi jelas bahwa mereka perlu melangkah di luar peran rekayasa layanan tradisional, menguraikan silo tim, dan menemukan kembali cara mereka bekerja.

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."

James Whitesides, SRE PM, Keandalan dan Operasi Xbox

Mengatasi skala melalui kolaborasi dan otomatisasi

Pada tahap awal proyek, tim pengembangan paham bahwa mereka perlu menghadirkan xREO untuk membantu merancang dan membangun arsitektur baru yang dapat memanfaatkan jangkauan global Azure. Dimulai dengan kontainer untuk memisahkan kode layanan dari infrastruktur dan Kubernetes sebagai pilihan yang jelas untuk orkestrasi, tim memilih Azure Kubernetes Service (AKS) yang dikelola sepenuhnya untuk menghilangkan banyak kerumitan manajemen.

Sekalipun dengan sistem yang telah disederhanakan ini, volume dari tugas manual yang diperlukan untuk membangun setiap kluster Kubernetes dengan cepat membuat tim xREO kewalahan. Untuk pengulangan dan otomatisasi, mereka memutuskan untuk membangun alur integrasi berkelanjutan/pengiriman berkelanjutan (CI/CD) dengan Azure Pipelines, menggunakan templat Azure Resource Manager untuk menyediakan sumber daya dengan sangat cepat.

"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."

James Whitesides, SRE PM, Keandalan dan Operasi Xbox

Menerima peran baru dengan misi baru

Pada saat ini, alur CI/CD menyebarkan lebih dari 35 layanan mikro berbasis AKS yang mengandalkan lebih dari 100 sumber daya (per wilayah) ke sejumlah wilayah Azure, dengan jumlah yang terus bertambah. Untuk menyebarkan wilayah baru, tim menambahkan enam baris kode dan menunggu sumber daya berputar.

Dengan penyebaran yang sepenuhnya otomatis, tim xREO telah beralih ke peran rekayasa keandalan situs (SRE) dan mereka menghabiskan sebagian besar waktu untuk membuat alat baru, bukan memperbaiki masalah. Mereka sering berkonsultasi sebagai mitra tepercaya untuk tim pengembangan, dan fokus mereka adalah pada pekerjaan yang proaktif, bernilai tinggi, dan sangat bermanfaat.

Lihat lebih dekat transformasi tim ke peran SRE.

Baca panduan lengkap