A Microsoft Xbox-csapat az SRE szerepkört használja egy új játéksztreamelési szolgáltatás készítéséhez

Tekintse meg, hogyan váltak az üzemeltető és a fejlesztői csapat megbízható partnerekké egy globálisan elosztott Kubernetes üzembe helyezés kiépítése kapcsán.

A feladat: Folyamat létrehozása globális méretezéshez

Számos üzemeltető csapathoz hasonlóan az Xbox megbízhatóság-tervezési és üzemeltetési (xREO) csapata is rengeteg időt töltött ismétlődő, manuális feladatok végzésével, mint az adatközpontok karbantartása, új kód üzembe helyezése és olyan problémákra való reagálás, amelyek egy nem általuk tervezett, monolitikus, merev architektúrában végzett munkából adódtak. Erőfeszítéseikkel fenntartották a szolgáltatás működését havonta több millió aktív felhasználó számára, több mint 40 országban és régióban. De amikor a csapatot az xCloud projekt támogatásával bízták meg, amely különösen alacsony késési követelményeket támasztott a világ minden táján elhelyezkedő játékosokkal, világossá vált számukra, hogy ki kell lépniük hagyományos mérnöki szerepkörükből, le kell bontaniuk a csapatokat elválasztó silókat, és újra kell tervezniük munkavégzésük módját.

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."

James Whitesides, SRE-projektmenedzser, Xbox-megbízhatóság és -üzemeltetés

Méretezhető megoldás együttműködéssel és automatizálással

A projekt elején a fejlesztési csapat felismerte, hogy az xREO-t is be kell vonniuk a munkába, hogy segítsen megtervezni és létrehozni egy új architektúrát, amely kihasználja az Azure globális jelenlétéből adódó előnyöket. A csapat a szolgáltatáskód infrastruktúráról való leválasztásához a konténerekkel kezdett, a vezényléshez pedig a Kubernetes látszott a természetes választásnak, ezért a teljes mértékben felügyelt Azure Kubernetes Service-t (AKS) választották, ezzel nagymértékben csökkentve a felügyelet bonyolultságát.

Az egyes Kubernetes-fürtök létrehozásához szükséges manuális feladatok mennyisége még ezzel a karcsúsított rendszerrel is gyorsan felülmúlta az xREO-csapat kapacitását. Elhatározták, hogy a megismételhetőséghez és az automatizáláshoz kiépítenek egy folyamatos integrációt/folyamatos teljesítést (CI/CD) lehetővé tevő folyamatot az Azure Pipelines szolgáltatással az erőforrások gyors kiépítéséhez az Azure Resource Manager-sablonokat használva.

"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."

James Whitesides, SRE-projektmenedzser, Xbox-megbízhatóság és -üzemeltetés

Új szerepkör vállalása új küldetéssel

A CI/CD-folyamat mára számos Azure-régióban több mint 35 AKS-alapú mikroszolgáltatást helyez üzembe, amely több 100 erőforrásra támaszkodik (régiónként) és még ennél is több várható. Új régió üzembe helyezéséhez a csapat felvesz hat új kódsort, és várakozik az erőforrások elérhetővé válására.

A teljesen automatizált üzembe helyezéssel az xREO-csapat a helymegbízhatósági mérnöki munka (SRE) szerepkörére váltott és a hibák javítása helyett új eszközök készítésével tölti ideje nagy részét. A fejlesztési csapat megbízható partnereként gyakran lép velük kapcsolatba, és a proaktív, nagyértékű és nagy megelégedettséggel járó munkára koncentrálhatnak.

Vessünk egy közelebbi pillantást a csapat SRE szerepkörre történő átalakítására.

A teljes cikk