Cos'è la Azure Data Science Virtual Machine per Linux e Windows?

La Data Science Virtual Machine (DSVM) è un'immagine di VM personalizzata sulla piattaforma cloud di Azure creata specificamente per le attività di data science. Include diversi strumenti comuni e strumenti preinstallati e preconfigurati per data science per implementare rapidamente la creazione di applicazioni intelligenti per l'analisi avanzata.

Data Science Virtual Machine è disponibile in:

  • Windows Server 2019
  • Windows Server 2022
  • Ubuntu 20.04 LTS

È inoltre disponibile la Data Science Virtual Machine (DSVM) di Azure per PyTorch, ovvero un'immagine Ubuntu 20.04 di Azure Marketplace ottimizzata per carichi di lavoro di Deep Learning distribuiti di grandi dimensioni. Include la versione più recente di PyTorch preinstallata e convalidata per ridurre i costi di installazione e accelerare il time-to-value. Il pacchetto include varie funzionalità di ottimizzazione (ONNX Runtime, DeepSpeed​, MSCCL​, ORTMoE​, Fairscale​, Nvidia Apex​) e uno stack aggiornato con le versioni compatibili più recenti di Ubuntu, Python, PyTorch, CUDA.

Confronto con Azure Machine Learning

Data Science Virtual Machine è un'immagine VM per data science ma Azure Machine Learning è una piattaforma end-to-end che include:

  • Risorse di calcolo completamente gestite
    • Istanze di calcolo
    • Cluster di elaborazione per attività di Machine Learning distribuito
    • Cluster di inferenza per assegnazione di punteggi in tempo reale
  • Archivi dati (ad esempio BLOB, Azure Data Lake Storage Gen2, database SQL)
  • Verifica degli esperimenti
  • Gestione di modelli
  • Notebook
  • Ambienti (gestione delle dipendenze di Conda e R)
  • Etichettatura
  • Pipeline (automatizzazione dei flussi di lavoro di data science end-to-end)

Confronto con le istanze di ambiente di calcolo di Azure Machine Learning

Le istanze di ambiente di calcolo di Azure Machine Learning sono un'immagine VM completamente configurata e gestita, mentre Data Science Virtual Machine è una VM non gestita.

Differenze principali:

Funzionalità Data science
VM
Azure Machine Learning
Istanza di ambiente di calcolo
Completamente gestita No
Supporto per i linguaggi Python, R, Julia, SQL, C#,
Java, Node.js, F#
Python e R
Sistema operativo Ubuntu
Finestre
Ubuntu
Opzione per GPU preconfigurata
Opzione per aumento delle prestazioni
Accesso SSH
Accesso RDP No
Predefinito
Notebook ospitati
No
(richiede configurazione aggiuntiva)
Accesso Single Sign-On predefinito No
(richiede configurazione aggiuntiva)
Collaborazione predefinita No
Strumenti preinstallati Jupyter(lab), VS Code,
Visual Studio, PyCharm, Juno,
Power BI Desktop, SSMS,
Microsoft Office 365, Apache Drill
Jupyter(lab)

Casi d'uso di esempio

Ecco alcuni casi d'uso comuni per i clienti di DSVM.

Sperimentazione a valutazione a breve termine

È possibile usare la DSVM per valutare o apprendere nuovi strumenti di data science, in particolare attraverso alcuni degli esempi e delle procedure dettagliate pubblicati.

Deep Learning con GPU

Nella DSVM i modelli di training possono usare algoritmi di Deep Learning su hardware basato su GPU (Graphics Processing Unit). Sfruttando il vantaggio della scalabilità delle VM della piattaforma Azure, la DSVM consente di usare hardware basato su GPU nel cloud secondo specifiche esigenze. È possibile passare a una VM basata su GPU durante il training di modelli di grandi dimensioni o quando sono necessari calcoli ad alta velocità, mantenendo lo stesso disco del sistema operativo. È possibile scegliere uno degli SKU di macchine virtuali abilitate per la GPU della serie N con la DSVM. Si noti che gli SKU di macchine virtuali abilitate per la GPU non sono supportati negli account Azure gratuiti.

Nelle edizioni per Windows della DSVM sono preinstallati i driver di GPU, i framework e le versioni per GPU dei framework di Deep Learning. Nelle edizioni per Linux, il Deep Learning su GPU è abilitato sulle DSVM Ubuntu.

È anche possibile distribuire l'edizione per Ubuntu o Windows della DSVM in una macchina virtuale di Azure non basata su GPU. In questo caso tutti i framework di Deep Learning eseguono il fallback alla modalità CPU.

Altre informazioni sui framework di Deep Learning e IA disponibili.

Preparazione e formazione sull'analisi scientifica dei dati

Gli istruttori e i formatori aziendali che tengono corsi di data science in genere forniscono un'immagine di macchina virtuale per garantire che gli studenti abbiano una configurazione coerente e che gli esempi abbiano un comportamento prevedibile.

La DSVM consente di creare un ambiente su richiesta con una configurazione coerente che semplifica i problemi relativi a incompatibilità e supporto. Esistono vantaggi sostanziali per i casi in cui tali ambienti devono essere compilati di frequente, in particolare per i corsi di formazione più brevi.

Quali funzionalità sono incluse nella DSVM?

Vedere un elenco completo di strumenti sulle DVSM di Windows e Linux qui.

Passaggi successivi

Per altre informazioni, vedere gli articoli seguenti: