Microsoft Xbox 小組採用了 SRE 角色來打造遊戲串流

了解營運小組和開發人員如何成為可靠的夥伴,一同架構全球散發的 Kubernetes 部署。

挑戰為:建立全球規模的程序

Xbox 可靠性工程和營運小組 (xREO) 和大多數作業小組相同,必須花費大量時間執行重複的手動工作來維護資料中心、部署新程式碼,以及對並非自身設計的整合型固定架構問題做出反應。他們的努力使服務能持續運作,為超過 40 個國家/地區的使用中每月訂閱者提供服務。但是,當小組必須支援遊戲串流服務 xCloud 專案,且必須滿足全球玩家的極低延遲需求時,小組了解到自己必須跳出傳統的服務工程角色、消除隔閡,並徹底改變原來的行事方式。

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."

Xbox 可靠性和營運 SRE PM James Whitesides

透過共同作業和自動化解決規模問題

開發小組在專案早期了解到他們需要 xREO 的協助,來利用 Azure 的全球觸及範圍來設計和打造新的架構。從容器開始將基礎結構和 Kubernetes 中的服務程式碼分離,是實現協調流程的理想選擇,因此小組選擇了完全受控的 Azure Kubernetes Service (AKS) 來消除大部分的管理複雜度。

但儘管有了這個簡化的系統,建立各個 Kubernetes 叢集所需的大量手動工作仍讓 xREO 小組很快地感到困頓。針對重複性和自動化,小組決定以 Azure 管線建置持續整合/持續傳遞 (CI/CD) 管線,並使用 Azure Resource Manager 範本來快速佈建資源。

"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."

Xbox 可靠性和營運 SRE PM James Whitesides

接受具有新任務的新角色

今日的 CI/CD 管線部署了超過 35 個 AKS 式微服務,這些微服務仰賴著數個 Azure 區域中每一區域超過 100 個以上的資源,且將來會持續增加。為了部署新區域,小組新增了六行程式碼,並等待資源開始運轉。

將部署完全自動化後,xREO 小組轉往站台可靠性工程 (SRE) 角色,並將大部分時間用來建立新工具,而非修正問題。xREO 小組常作為可靠的合作夥伴為開發小組提供諮詢,並注重主動、高價值且高回報的作業。

深入了解小組對 SRE 角色的轉換。

閱讀完整案例