使用 AKS 进行机器学习模型培训

使用大型数据集培训模型是一项复杂的资源密集型任务。使用熟悉的工具(如 TensorFlow 和 Kubeflow)简化机器学习模型的培训。ML 模型将在支持 GPU 的 VM 支持的 AKS 群集中运行。

Machine Learning model training with AKSMachine Learning model training with AKS123456

将 ML 模型打包到容器,并发布到 ACR

Azure Blob 存储承载正在训练的数据集和已训练的模型

使用 Kubeflow 将训练作业部署到 AKS,分布到 AKS 的训练作业包括参数服务器和 Worker 节点

使用 Kubeflow 为生产模型提供服务,在测试、控制和生产环节打造一致的环境

AKS 支持启用 GPU 的 VM

开发人员可构建查询 AKS 群集中运行的模型的功能

  1. 1 将 ML 模型打包到容器,并发布到 ACR
  2. 2 Azure Blob 存储承载正在训练的数据集和已训练的模型
  3. 3 使用 Kubeflow 将训练作业部署到 AKS,分布到 AKS 的训练作业包括参数服务器和 Worker 节点
  1. 4 使用 Kubeflow 为生产模型提供服务,在测试、控制和生产环节打造一致的环境
  2. 5 AKS 支持启用 GPU 的 VM
  3. 6 开发人员可构建查询 AKS 群集中运行的模型的功能