略過導覽

Microsoft Xbox 小組採用了 SRE 角色來打造遊戲串流

了解營運小組和開發人員如何成為可靠的夥伴,一同架構全球散發的 Kubernetes 部署。

閱讀完整案例

挑戰為:建立全球規模的程序

和許多營運團隊相同,Xbox 可靠性工程與營運 (xREO) 團隊過去花費許多時間執行重複的手動工作,以維護資料中心、部署新程式碼,並針對在他們並未參與設計之巨大與僵化結構中工作時所引發的問題做出反應。他們努力為在 40 多個國家和地區的中的數百萬每月活躍用戶提供服務正常運作。但是當團隊負責支援project xCloud時 (為世界各地的遊戲玩家提供具有極低延遲要求的遊戲串流體驗),他們清楚發現自己需要走出傳統服務工程角色,打破團隊孤立,並重新創造他們的工作方式。

"Even small changes posed a significant risk, which meant we spent a lot of our time firefighting. Our mode of operation was mostly reactive, and we weren't really empowered to do much about it."

Xbox 可靠性和營運 SRE PM James Whitesides

透過共同作業和自動化解決規模問題

在專案早期發展階段,開發團隊發現他們需要引進 xREO,以協助設計和組建可充分利用 Azure 擴及全球的新結構。團隊從將服務代碼與基礎架構分離的容器開始,並將 Kubernetes 作為協調流程的明確選擇,進而選取了完全受控 Azure Kubernetes Service (AKS) 來消除大量的管理複雜性。

然而即使有此簡化系統,必須快速建置個別 Kubernetes 叢集的大量手動工作壓力仍讓 xREO 團隊難以喘息。為了可重複性和自動化,團隊決定使用 Azure Pipelines,透過 Azure Resource Manager 範本建置持續整合/持續傳遞 (CI/CD) 管線,以快速佈建資源。

"Now, in the SRE role, we build the platform with the devs, and we are part of their deployment process. We're really focused on building and improving rather than burning down checklists."

Xbox 可靠性和營運 SRE PM James Whitesides

接受具有新任務的新角色

今日的 CI/CD 管線部署了超過 35 個 AKS 式微服務,這些微服務仰賴著數個 Azure 區域中每一區域超過 100 個以上的資源,且將來會持續增加。為了部署新區域,小組新增了六行程式碼,並等待資源開始運轉。

將部署完全自動化後,xREO 小組轉往站台可靠性工程 (SRE) 角色,並將大部分時間用來建立新工具,而非修正問題。xREO 小組常作為可靠的合作夥伴為開發小組提供諮詢,並注重主動、高價值且高回報的作業。

深入了解小組對 SRE 角色的轉換。

閱讀完整案例