Implementación de modelos de Machine Learning en AKS con Kubeflow

Azure Blob Storage
Azure Container Registry
Azure Kubernetes Service (AKS)

Ideas de solución

Este artículo es una idea de solución. Si te gustaría que ampliemos este artículo con más información, como posibles casos de uso, servicios alternativos, consideraciones de implementación o una guía de precios, comunícalo a través de los Comentarios de GitHub.

En este artículo se presenta una solución para la inferencia en tiempo real en Azure Kubernetes Service (AKS).

Architecture

Architecture diagram that shows how machine learning models are deployed to Azure Kubernetes Services (AKS).

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

  1. Un modelo de aprendizaje automático se empaqueta en un contenedor y se publica en Azure Container Registry.
  2. Azure Blob Storage aloja los conjuntos de datos de entrenamiento y el modelo entrenado.
  3. Kubeflow se usa para implementar trabajos de entrenamiento en AKS, incluidos los servidores de parámetros y los nodos de trabajo.
  4. Kubeflow se usa para hacer que un modelo de producción esté disponible. Este paso promueve un entorno coherente entre pruebas, control y producción.
  5. AKS admite máquinas virtuales habilitadas para GPU.
  6. Los desarrolladores crean funciones para consultar el modelo que se ejecuta en un clúster AKS.

Componentes

  • Blob Storage es un servicio que forma parte de Azure Storage. Blob Storage ofrece almacenamiento optimizado de objetos en la nube para grandes cantidades de datos no estructurados.
  • Container Registry construye, almacena y administra imágenes de contenedores y puede almacenar modelos de aprendizaje automático en contenedores.
  • AKS es un servicio de Kubernetes totalmente administrado, de alta disponibilidad y seguro. AKS facilita la implementación y la administración de aplicaciones contenedorizadas.
  • Machine Learning es un entorno basado en la nube que permite entrenar, implementar, automatizar, administrar y realizar un seguimiento de los modelos de aprendizaje automático. Puede utilizar los modelos para prever el comportamiento, los resultados y las tendencias futuras.

Detalles del escenario

AKS es útil cuando necesite implementaciones de producción a gran escala de sus modelos de aprendizaje automático. Una implementación a gran escala implica un tiempo de respuesta rápido, el autoescalado del servicio implementado y el registro. Para más información, consulte el documento Implementación de un modelo en el clúster de Azure Kubernetes Service.

Esta solución utiliza Kubeflow para gestionar la implementación en AKS. Los modelos de aprendizaje automático se ejecutan en clústeres de AKS respaldados por máquinas virtuales habilitadas para GPU.

Posibles casos de uso

Esta solución se aplica a escenarios que usan máquinas virtuales habilitadas para AKS y GPU para el aprendizaje automático. Entre los ejemplos se incluyen:

  • Sistemas de clasificación de imágenes.
  • Algoritmos de procesamiento del lenguaje natural.
  • Sistemas de mantenimiento predictivo.

Pasos siguientes

Inteligencia artificial (IA): introducción a la arquitectura