Microsoft Xbox ekibi, oyun akışı derlemek için SRE rolünü benimsedi
Operasyon ekibinin ve geliştiricilerin güvenilir iş ortakları olup dünya çapında dağıtılan bir Kubernetes dağıtımını nasıl tasarladığını öğrenin.
Karşılaşılan zorluklar: Global ölçekte proje oluşturma
Xbox Güvenilirlik Mühendisliği ve Operasyon (xREO) ekibi; veri merkezlerini korumak, yeni kod dağıtmak ve kendilerinin tasarlamadığı monolitik, katı bir mimaride çalışmaktan kaynaklanan sorunlara yanıt vermek için yinelenen, el ile yapılması gereken görevlere çok fazla zaman ayırmak zorunda kalırdı. Ekibin çabaları, 40’tan fazla ülkede ve bölgede aylık milyonlarca aktif abone için hizmetin çalışmaya devam etmesini sağladı. Fakat ekibe dünyanın dört bir yanındaki oyuncular için inanılmaz düşük gecikme süresi gereksinimleri ile yeni, isteğe bağlı bir oyun akış deneyimi olan xCloud projesini destekleme görevi verildiğinde, geleneksel hizmet mühendisliği rollerinin dışına çıkmalarının, ekip silolarını bölmelerinin ve yeni bir çalışma yöntemi keşfetmelerinin gerektiği net olarak anlaşıldı.
Karşılaşılan zorluklar: Bulut işletme modelini benimseme
"Küçük değişiklikler bile önemli bir risk oluşturuyordu, bu da zamanımızın çoğunu yangınla mücadele için harcadığımız anlamına geliyordu. Operasyon tarzımız çoğunlukla tepkiseldi ve bu konuda pek bir şey yapacak yetkimiz yoktu."
James Whitesides, SRE PM, Xbox Güvenilirlik ve Operasyon
İşbirliği ve otomasyon ile ölçeğe göre çözüm
Geliştirme ekibi, projenin başlarında Azure'un küresel erişimi’nden yararlanacak yeni bir mimari tasarlayıp derlemeye yardımcı olması için xREO’yu dahil etmesi gerektiğini fark etti. Hizmet kodunu altyapıdan ayırmak için kapsayıcılar ve düzenleme için bariz seçenek olarak Kubernetes ile başlayan ekipler, yönetim karmaşıklığının çoğunu ortadan kaldırmak için tam olarak yönetilen Azure Kubernetes Service’ı (AKS) seçti.
Fakat bu kolaylaştırılmış sistemle bile her bir Kubernetes kümesini derlemek için el ile yapılması gereken görevlerin sayısı, xREO ekibini büyük bir iş yükü altında bıraktı. Tekrarlanabilirlik ve otomasyon için, kaynakları hızla sağlamak içinAzure Resource Manager şablonlarını kullanarak Azure Pipelines ile sürekli bir entegrasyon/sürekli teslim (CI/CD) ardışık düzeni oluşturmaya karar verdiler.
Karşılaşılan zorluklar: Bulut işletme modelini benimseme
"Şimdi, SRE rolünde, geliştiricilerle birlikte platformu oluşturuyoruz ve onların devreye alma sürecinin bir parçası oluyoruz. Kontrol listelerini yakmak yerine gerçekten oluşturmaya ve iyileştirmeye odaklandık."
James Whitesides, SRE PM, Xbox Güvenilirlik ve Operasyon
Yeni bir görevle yeni bir rol üstlenme
Bugün CI/CD işlem hattı, 100’den fazla kaynağa (bölge başına) dayanan 35 AKS tabanlı mikro hizmeti birçok Azure bölgesine dağıtıyor. Üstelik gelecekte daha fazla bölge de eklenecek. Ekip, yeni bir bölgeye dağıtmak için altı kod satırı ekliyor ve kaynakların çalışmasını bekliyor.
Dağıtım tamamen otomatik hale gelince xREO ekibi, site güvenilirliği mühendisliği (SRE) rolüne geçiş yaptı ve zamanının çoğunu sorun düzeltmek yerine yeni araçlar oluşturmaya ayırdı. Geliştirme ekibinin güvenilir bir ortağı olarak onlara sık sık danışılır ve proaktif, yüksek değerli ve son derece ödüllendirici işlere odaklanırlar.