Set di dati Open di Azure

Articolo
01/10/2024

Migliora l'accuratezza dei tuoi modelli di Machine Learning con set di dati disponibili pubblicamente. Risparmiare tempo per l'individuazione e la preparazione dei dati usando set di dati curati pronti per l'uso nei progetti di Machine Learning.

Trasporto

Set di dati	Descrizione
TartanAir: Set di dati di simulazione AirSim	Dati dei veicoli autonomi AirSim generati per risolvere la localizzazione e il mapping simultanei (SLAM).
NYC Taxi & Limousine Commission - record di corse di taxi gialli	I record delle corse dei taxi gialli includono date/ore di ritiro e consegna, posizioni di ritiro e consegna, distanze di viaggio, tariffe articoli, tipi di pagamento, tipi di pagamento e conteggi passeggeri segnalati dall'autista.
NYC Taxi & Limousine Commission - record di corse in taxi verdi	I record di corse dei taxi verdi includono date/ore di ritiro e di consegna, posizioni di ritiro e recapito, distanze di viaggio, tariffe, tipi di tariffa, tipi di pagamento e conteggi passeggeri segnalati dal conducente.
Nyc Taxi & Limousine Commission - For-Hire Vehicle (FHV) trip records	I record delle corse del veicolo a noleggio includono il numero di licenza di base di invio e la data di ritiro, l'ora e l'ID della località del taxi.

Integrità e genomica

Set di dati	Descrizione
COVID-19 Data Lake	Il data lake per COVID-19 è una raccolta di set di dati correlati a COVID-19 provenienti da varie origini, che includono dati di tracciamento di test e di risultati per i pazienti, criteri di distanziamento sociale, capacità degli ospedali, mobilità e così via.
Set di dati open research COVID-19	Set di dati di dati con testo completo e metadati relativo ad articoli accademici correlati a COVID-19 e coronavirus ottimizzati per la leggibilità da parte di computer e resi disponibili per l'uso dalla community di ricerca globale.
Genomica Data Lake	Genomica Data Lake offre vari set di dati pubblici a cui è possibile accedere gratuitamente e integrarsi nei flussi di lavoro e nelle applicazioni di analisi genomica. I set di dati comprendono sequenze di genoma, informazioni sulle varianti e metadati di campioni/soggetti nei formati di file BAM, FASTA, VCF, CSV.

Forza lavoro ed economia

Set di dati	Descrizione
Statistiche relative alla forza lavoro negli Stati Uniti	Il set di dati US Labor Force Statistics include statistiche sulla forza lavoro, il tasso di partecipazione alla forza lavoro e la popolazione civile non istituzionale per età, sesso, razza e gruppi etnici. negli Stati Uniti.
Ore e guadagni per il settore dell'occupazione nazionale negli Stati Uniti	Il programma Current Employment Statistics (CES) genera stime dettagliate per il settore dell'occupazione non agricola con informazioni su ore e guadagni dei lavoratori stipendiati negli Stati Uniti.
Ore e guadagni per il settore dell'occupazione a livello statale negli Stati Uniti	Il programma Current Employment Statistics (CES) genera stime dettagliate per il settore dell'occupazione non agricola con informazioni su ore e guadagni dei lavoratori stipendiati negli Stati Uniti.
Statistiche relative alla disoccupazione a livello di area locale negli Stati Uniti	I set di dati US Local Area Unemployment Statistics includono dati relativi a occupazione, disoccupazione e forza lavoro, su base mensile e annuale, ai fini del censimento per aree geografiche e divisioni, stati, contee, aree metropolitane e numerose città negli Stati Uniti.
US Consumer Price Index	Il Consumer Price Index (CPI) è una misura della variazione media nel tempo dei prezzi pagati dai consumatori urbani per un paniere di beni di consumo e servizi.
US Producer Price Index - Industry	Il Producer Price Index (PPI), ovvero l'indice dei prezzi alla produzione, è un indicatore della variazione media nel tempo dei prezzi di vendita ricevuti dai produttori nazionali per i beni prodotti.
US Producer Price Index - Commodities	Il PPI (Producer Price Index), ovvero l'indice dei prezzi alla produzione, è un indicatore della variazione media nel tempo dei prezzi di vendita ricevuti dai produttori nazionali per le loro merci.

Popolazione e sicurezza

Set di dati	Descrizione
Popolazione degli Stati Uniti per contea	Popolazione degli Stati Uniti in base a sesso ed etnia per ogni contea degli Stati Uniti derivata dal censimento decennale del 2000 e del 2010. Questo set di dati proviene da United States Census Bureau.
Popolazione degli Stati Uniti per CAP	Popolazione degli Stati Uniti in base a sesso ed etnia per ogni codice postale degli Stati Uniti derivata dal censimento decennale del 2010. Questo set di dati proviene da United States Census Bureau.
Dati di Boston Cassaforte ty	Leggi i dati sulle chiamate al 311 registrate per la città di Boston. Questo set di dati è archiviato nel formato Parquet e viene aggiornato quotidianamente.
Dati di Chicago Cassaforte ty	Leggi i dati sulle chiamate al 311 registrate per la città di Chicago. Questo set di dati è archiviato nel formato Parquet e viene aggiornato quotidianamente.
New York City Cassaforte ty Data	Questo set di dati contiene tutte le richieste di assistenza effettuate al numero 311 nella città di New York dal 2010 a oggi. ™Viene archiviato in formato Parquet e aggiornato ogni giorno.
Dati di San Francisco Cassaforte ty	Richieste di assistenza ai vigili del fuoco e casi del servizio 311 di San Francisco. Questo set di dati include record cronologici accumulati dal 2015 a oggi.
Dati di Seattle Cassaforte ty	Risposte a chiamate al numero 911 del Seattle Fire Department. Questo set di dati, aggiornato quotidianamente, include record cronologici accumulati dal 2010 a oggi

Set di dati supplementari e comuni

Set di dati	Descrizione
Diabete	Il set di dati Diabetes include 442 esempi con 10 funzionalità ed è quindi ottimale per iniziare a usare gli algoritmi di Machine Learning.
DATI simulati DI SALES SALES	Questo set di dati è derivato dal set di dati DI DOMINIck E INCLUDE dati simulati aggiuntivi con l'obiettivo di fornire un set di dati che semplifica il training simultaneo di migliaia di modelli in Azure Machine Learning.
Database MNIST di cifre scritte a mano	Il database MNIST di cifre scritte a mano ha un set di training di 60.000 esempi e un set di test di 10.000 esempi. Le dimensioni delle cifre sono state normalizzate e le cifre sono state inserite al centro in un'immagine di dimensioni fisse.
Set di dati delle raccomandazioni di Microsoft News	Microsoft News Dataset (MIND) è un set di dati su larga scala per la ricerca di raccomandazioni di notizie. Funge da set di dati di riferimento per le raccomandazioni sulle notizie e facilita la ricerca nei sistemi di raccomandazione e raccomandazione delle notizie.
Giorni festivi	Dati per le festività mondiali generati dai pacchetti PyPI relativi alle festività e da Wikipedia e relativi a 38 paesi o aree geografiche dal 1970 al 2099.
Sintesi vocale aperta in russo	Russo Open STT è un set di dati vocale aperto su larga scala per la lingua russa