Trace Id is missing
跳至主要內容

Microsoft Xbox 小組採用了 SRE 角色來打造遊戲串流

了解營運小組和開發人員如何成為可靠的夥伴,一同架構全球分散式 Kubernetes 部署。

挑戰:建立全球規模的程序

Xbox 可靠性工程和營運 (xREO) 小組和大多數作業小組相同,必須花費大量時間執行重複的手動工作來維護資料中心、部署新程式碼,以及對並非自身設計的整合型固定架構問題做出反應。他們的努力使服務能持續運作,為超過 40 個國家/地區的作用中每月訂閱者提供服務。但是,當小組必須支援遊戲串流體驗 專案 xCloud,且必須滿足全球玩家的極低延遲需求時,小組了解到自己必須跳出傳統的服務工程角色、消除隔閡,並徹底改變原來的行事方式。

在會議室中說話的人

挑戰:適應雲端作業模型

"即使是小型變更也會帶來重大風險,這表示我們花費許多時間進行風險防禦。我們的作業模式大部分是反應式,並沒有能力真正進行處理。"

Xbox 可靠性和營運 SRE PM,James Whitesides

透過共同作業和自動化解決規模問題

開發小組在專案早期了解到他們需要 xREO 的協助,來利用 Azure 的全球觸及範圍來設計和打造新的架構。從容器開始將基礎結構和 Kubernetes 中的服務程式碼分離,是實現協調流程的理想選擇,因此小組選擇了完全受控的 Azure Kubernetes Service (AKS) 來消除大部分的管理複雜度。

但儘管有了這個簡化的系統,建置各個 Kubernetes 叢集所需的大量手動工作仍讓 xREO 小組很快地感到困頓。針對重複性和自動化,小組決定以 Azure Pipelines建置持續整合/持續傳遞 (CI/CD) 管線,並使用 Azure Resource Manager 範本來快速佈建資源。

挑戰:適應雲端作業模型

"現在,我們在 SRE 角色中與開發人員一起建置了平台,成為他們部署程序的一部分。我們真正著重於建置和改善,而非光去除檢查清單。"

Xbox 可靠性和營運 SRE PM,James Whitesides

接受具有新任務的新角色

今日的 CI/CD 管線部署了超過 35 個 AKS 式微服務,這些微服務仰賴著數個 Azure 區域中每一區域超過 100 個以上的資源,且將來會持續增加。為了部署新區域,小組新增了六行程式碼,並等待資源開始運轉。

將部署完全自動化後,xREO 小組轉往站台可靠性工程 (SRE) 角色,並將大部分時間用來建立新工具,而非修正問題。xREO 小組常身為可靠的合作夥伴為開發小組提供諮詢,並注重主動、高價值且高回報的作業。