Trace Id is missing
Пропустить и перейти к основному содержимому

Команда Microsoft Xbox осваивает роль SRE для создания службы трансляции игр

Посмотрите, как команда по эксплуатации и разработчики стали надежными партнерами при проектировании архитектуры распределенного по всему миру развертывания Kubernetes.

Задача: создание процесса глобального масштаба

Как и многие сотрудники, отвечающие за эксплуатацию, инженеры команды Xbox Reliability Engineering and Operations (xREO) раньше тратили много времени на выполнение повторяющихся ручных задач по обслуживанию центров обработки данных, развертыванию нового кода и реагированию на проблемы, возникающих в результате работы в монолитной жесткой архитектуре, которую они не проектировали. Своими усилиями они поддерживали работу службы для миллионов активных ежемесячных подписчиков в более чем 40 странах и регионах. Но когда перед командой была поставлена задача поддержки проекта трансляции игр xCloud с требованиями чрезвычайно низкой задержки для геймеров во всем мире, стало ясно, что нужно выйти за пределы традиционной роли по разработке службы, начать сотрудничать с коллегами из других подразделений и переосмыслить подход к работе.

Человек говорит в конференц-зале

Задача: адаптация к облачной операционной модели

"Даже небольшие изменения представляют значительный риск. Это означало, что мы тратили очень много времени на устранение последствий проблем. В ходе нашей работы мы в основном реагировали на события и у нас не было возможностей изменить такой режим работы."

Джеймс Уайтсайдз, менеджер по проектам SRE, подразделение Xbox Reliability and Operations

Решение для масштабирования, созданное благодаря совместной работе и автоматизации

В начале проекта члены команды разработчиков поняли, что им необходимо привлечь специалистов xREO для проектирования и создания новой архитектуры, в которой бы использовались преимущества глобального охвата Azure. Применив контейнеры для отделения кода службы от инфраструктуры и платформы Kubernetes в качестве очевидного варианта для оркестрации, команды выбрали полностью управляемую службу Azure Kubernetes (AKS), чтобы значительно упростить управление.

Но даже с такой оптимизированной системой специалисты xREO быстро оказались перегружены объемом выполняемых вручную задач, необходимых для создания каждого кластера Kubernetes. Чтобы обеспечить повторяемость и автоматизацию, они решили создать конвейер непрерывной интеграции и непрерывной поставки (CI/CD) с помощью Azure Pipelines на основе шаблонов Azure Resource Manager для быстрой подготовки ресурсов.

Задача: адаптация к облачной операционной модели

"Теперь, в роли SRE, мы создаем платформу вместе с разработчиками и участвуем в их процессе развертывания. Мы действительно сосредоточены на создании и улучшении, а не на выполнении пунктов из контрольных списков."

Джеймс Уайтсайдз, менеджер по проектам SRE, подразделение Xbox Reliability and Operations

Новая роль — новая миссия

Сегодня в конвейере CI/CD развертывается более 35 микрослужб на базе AKS с зависимостями от более чем 100 ресурсов (для каждого региона) в многочисленных регионах Azure, список которых в будущем пополнится. Чтобы развернуть новый регион, члены команды добавляют шесть строк кода и ждут, пока ресурсы станут доступны.

Так как развертывание полностью автоматизировано, команда xREO перешла к роли SRE (проектирование для обеспечения надежности сайтов) и посвящает большую часть времени созданию новых средств, а не устранению проблем. К ее инженерам часто обращаются за консультацией как к надежному партнеру команды разработчиков, и основное их внимание сосредоточено на упреждающей, важной и чрезвычайно перспективной работе.