AKS を活用した機械学習モデル トレーニング

大規模なデータセットを使用するモデルのトレーニングは、複雑なうえに多くのリソースが使用されるタスクです。TensorFlow や Kubeflow などの使い慣れたツールを使用して、機械学習モデルのトレーニングを単純化できます。ML モデルは、GPU が有効な VM に支えられた AKS クラスターで実行されます。

Machine Learning model training with AKSMachine Learning model training with AKS123456

ML モデルをコンテナーにパッケージ化し、ACR に発行します

Azure BLOB Storage がトレーニング データ セットと、トレーニング済みモデルをホストします

Kubeflow を使用して AKS にトレーニング ジョブをデプロイします。AKS に分散されるトレーニング ジョブには、パラメーター サーバーやワーカー ノードが含まれます

Kubeflow を使用して運用モデルを提供し、テスト、コントロール、運用で一貫した環境を維持できるようにします

AKS が GPU 対応 VM をサポートします

開発者は、AKS クラスターで実行されているモデルを照会する機能を作成できます

  1. 1 ML モデルをコンテナーにパッケージ化し、ACR に発行します
  2. 2 Azure BLOB Storage がトレーニング データ セットと、トレーニング済みモデルをホストします
  3. 3 Kubeflow を使用して AKS にトレーニング ジョブをデプロイします。AKS に分散されるトレーニング ジョブには、パラメーター サーバーやワーカー ノードが含まれます
  1. 4 Kubeflow を使用して運用モデルを提供し、テスト、コントロール、運用で一貫した環境を維持できるようにします
  2. 5 AKS が GPU 対応 VM をサポートします
  3. 6 開発者は、AKS クラスターで実行されているモデルを照会する機能を作成できます