Azure Open Datasets

Article
06/15/2023

Améliorez la précision de vos modèles de Machine Learning avec des jeux de données accessibles au public. Gagnez du temps lors de la découverte et de la préparation des données en utilisant des jeux de données organisés prêts à être utilisés dans les projets de Machine Learning.

Transport

Dataset	Description
TartanAir : jeu de données de simulation AirSim	AirSim - Génération de données de véhicule autonomes pour résoudre la cartographie et la localisation simultanées (SLAM).
Commission des taxis et limousines de la ville de New York : enregistrements de trajets en taxi jaune	Les enregistrements de trajets en taxi jaune incluent les dates et heures de début et fin de trajet, les emplacements respectifs, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur.
Commission des services de taxis et de limousines de la ville de New York - enregistrements de trajets en taxi vert	Les enregistrements de trajets en taxi vert incluent les dates et heures de début et fin de trajet, les emplacements respectifs, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur.
Commission des taxis de New York - Enregistrements des trajets de taxi	Les enregistrements de trajets des VTC incluent le numéro de licence de la base de dispatch et la date de prise en charge, l’heure et l’ID d’emplacement de zone de taxi.

Santé et génomique

Dataset	Description
COVID-19 Data Lake	La collection COVID-19 Data Lake contient des jeux de données liés à la pandémie de COVID-19 qui proviennent de diverses sources, couvrent les données de suivi des patients et des tests, la politique de distanciation sociale, la capacité hospitalière, la mobilité, etc.
Jeu de données de recherche COVID-19	Jeu de données de texte intégral et de métadonnées incluant des articles de recherche liés au COVID-19 et aux coronavirus. Il est optimisé pour la lisibilité par une machine et mis à disposition par la communauté mondiale de chercheurs.
Genomics Data Lake	Le lac de données Genomics Data Lake fournit divers jeux de données publics qui sont accessibles gratuitement et peuvent s’intégrer à vos applications et workflows d’analyse génomique. Les jeux de données contiennent des séquences de génome, diverses informations et des métadonnées sur le sujet/échantillon en formats de fichier BAM, FASTA, VCF et CSV.

Travail et économie

Dataset	Description
US Labor Force Statistics (Statistiques de la population active américaine)	Le jeu de données US Labor Force Statistics fournit des statistiques sur la population active, le taux d’activité et population civile non institutionnelle par âge, sexe, race et groupes ethniques. aux États-Unis.
US National Employment Hours and Earnings (Heures d’emploi et revenus nationaux aux États-Unis)	Le programme Current Employment Statistics (CES) produit des estimations détaillées de l’emploi non agricole, des heures de travail et des revenus des travailleurs salariés aux États-Unis.
US National Employment Hours and Earnings (Heures d’emploi et revenus au niveau des États aux États-Unis)	Le programme Current Employment Statistics (CES) produit des estimations détaillées de l’emploi non agricole, des heures de travail et des revenus des travailleurs salariés aux États-Unis.
US Local Area Unemployment Statistics (Statistiques sur le chômage local aux États-Unis)	Les jeux de données du programme de statistiques sur le chômage au niveau local produisent des données mensuelles et annuelles sur l’emploi, le chômage et la population active pour les régions et divisions de recensement, les États, les comtés, les régions métropolitaines et de nombreuses villes des États-Unis.
Indice américain des prix à la consommation	L’indice des prix à la consommation (IPC) est une mesure de la variation moyenne dans le temps des prix payés par les consommateurs urbains pour un panier de biens et services à la consommation.
Indice des prix producteur aux États-Unis - Industrie	L’indice des prix à la production (IPP) est une mesure de la variation moyenne dans le temps des prix de vente perçus par les producteurs nationaux pour leur production.
Indice des prix à la production aux États-Unis - Marchandises	L’indice des prix à la production (IPP) est une mesure de la variation moyenne dans le temps des prix de vente perçus par les producteurs nationaux pour leur produits.

Population et sûreté

Dataset	Description
Population américaine par comté	Population des États-Unis par sexe et par race pour chaque comté américain tiré du recensement décennal de 2000 et 2010. Ce jeu de données est fourni par le Bureau du recensement des États-Unis (United States Census Bureau).
Population américaine par code postal	Population des États-Unis par sexe et par race pour chaque code postal américain tiré du recensement décennal de 2010. Ce jeu de données est fourni par le Bureau du recensement des États-Unis (United States Census Bureau).
Données de sûreté de Boston	Données concernant les appels aux services d’urgence (311) signalés à la ville de Boston. Ce jeu de données est stocké au format Parquet et il est mis à jour quotidiennement.
Données de sûreté de Chicago	Données concernant les appels aux services d’urgence (311) signalés à la ville de Chicago. Ce jeu de données est stocké au format Parquet et il est mis à jour quotidiennement.
Données de sûreté de New York City	Ce jeu de données contient toutes les demandes de service 311 à New York de 2010 à nos jours. Il est stocké au format Parquet et mis à jour quotidiennement.
Données de sûreté de San Francisco	Appel au pompiers et incidents 311 à San Francisco. Ce jeu de données contient les enregistrements historiques accumulés de 2015 à aujourd’hui.
Données de sécurité de Seattle	Dispatches du 911/des pompiers de Seattle. Ce jeu de données est mis à jour quotidiennement. Il contient les enregistrements historiques accumulés de 2010 à aujourd’hui

Jeux de données supplémentaires et communs

Dataset	Description
Diabètes	Le jeu de données sur le diabète contient 442 échantillons avec 10 caractéristiques, ce qui en fait un outil idéal pour commencer à utiliser des algorithmes Machine Learning.
Données simulées de ventes de billets de JO	Ce jeu de données est dérivé du jeu de données OJ de Dominick. Il inclut des données simulées supplémentaires dans le but de fournir un jeu de données qui facilite la formation simultanée de milliers de modèles sur Azure Machine Learning.
Base de données MNIST de chiffres manuscrits	La base de données MNIST de chiffres manuscrits présente un ensemble d’entraînement comportant 60 000 exemples, ainsi qu’un ensemble test de 10 000 exemples. Les chiffres présentent une taille normalisée et sont centrés dans une image à taille fixe.
Jeu de données recommandations des actualités Microsoft	MIcrosoft News Dataset (MIND) est un jeu de données à grande échelle pour la recherche d’actualités suggérées. Il fait office de jeu de données de référence pour les suggestions d’actualités, et de faciliter la recherche dans les systèmes de recommandation et les suggestions d’actualités.
Jours fériés	Données sur les jours fériés dans le monde provenant du package de jours fériés PyPI et de Wikipédia, couvrant 38 pays ou régions de 1970 à 2099.
Reconnaissance vocale ouverte pour le russe	Russain Open STT est un jeu de données de reconnaissance vocale à grande échelle pour la langue russe