Améliorez la précision de vos modèles de Machine Learning avec des jeux de données accessibles au public. Gagnez du temps lors de la découverte et de la préparation des données en utilisant des jeux de données organisés prêts à être utilisés dans les projets de Machine Learning.
Les enregistrements de trajets en taxi jaune incluent les dates et heures de début et fin de trajet, les emplacements respectifs, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur.
Les enregistrements de trajets en taxi vert incluent les dates et heures de début et fin de trajet, les emplacements respectifs, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur.
Les enregistrements de trajets des VTC incluent le numéro de licence de la base de dispatch et la date de prise en charge, l’heure et l’ID d’emplacement de zone de taxi.
La collection COVID-19 Data Lake contient des jeux de données liés à la pandémie de COVID-19 qui proviennent de diverses sources, couvrent les données de suivi des patients et des tests, la politique de distanciation sociale, la capacité hospitalière, la mobilité, etc.
Jeu de données de texte intégral et de métadonnées incluant des articles de recherche liés au COVID-19 et aux coronavirus. Il est optimisé pour la lisibilité par une machine et mis à disposition par la communauté mondiale de chercheurs.
Le lac de données Genomics Data Lake fournit divers jeux de données publics qui sont accessibles gratuitement et peuvent s’intégrer à vos applications et workflows d’analyse génomique. Les jeux de données contiennent des séquences de génome, diverses informations et des métadonnées sur le sujet/échantillon en formats de fichier BAM, FASTA, VCF et CSV.
Le jeu de données US Labor Force Statistics fournit des statistiques sur la population active, le taux d’activité et population civile non institutionnelle par âge, sexe, race et groupes ethniques. aux États-Unis.
Le programme Current Employment Statistics (CES) produit des estimations détaillées de l’emploi non agricole, des heures de travail et des revenus des travailleurs salariés aux États-Unis.
Le programme Current Employment Statistics (CES) produit des estimations détaillées de l’emploi non agricole, des heures de travail et des revenus des travailleurs salariés aux États-Unis.
Les jeux de données du programme de statistiques sur le chômage au niveau local produisent des données mensuelles et annuelles sur l’emploi, le chômage et la population active pour les régions et divisions de recensement, les États, les comtés, les régions métropolitaines et de nombreuses villes des États-Unis.
L’indice des prix à la consommation (IPC) est une mesure de la variation moyenne dans le temps des prix payés par les consommateurs urbains pour un panier de biens et services à la consommation.
L’indice des prix à la production (IPP) est une mesure de la variation moyenne dans le temps des prix de vente perçus par les producteurs nationaux pour leur production.
L’indice des prix à la production (IPP) est une mesure de la variation moyenne dans le temps des prix de vente perçus par les producteurs nationaux pour leur produits.
Population des États-Unis par sexe et par race pour chaque comté américain tiré du recensement décennal de 2000 et 2010. Ce jeu de données est fourni par le Bureau du recensement des États-Unis (United States Census Bureau).
Population des États-Unis par sexe et par race pour chaque code postal américain tiré du recensement décennal de 2010. Ce jeu de données est fourni par le Bureau du recensement des États-Unis (United States Census Bureau).
Données concernant les appels aux services d’urgence (311) signalés à la ville de Boston. Ce jeu de données est stocké au format Parquet et il est mis à jour quotidiennement.
Données concernant les appels aux services d’urgence (311) signalés à la ville de Chicago. Ce jeu de données est stocké au format Parquet et il est mis à jour quotidiennement.
Ce jeu de données contient toutes les demandes de service 311 à New York de 2010 à nos jours. Il est stocké au format Parquet et mis à jour quotidiennement.
Dispatches du 911/des pompiers de Seattle. Ce jeu de données est mis à jour quotidiennement. Il contient les enregistrements historiques accumulés de 2010 à aujourd’hui
Le jeu de données sur le diabète contient 442 échantillons avec 10 caractéristiques, ce qui en fait un outil idéal pour commencer à utiliser des algorithmes Machine Learning.
Ce jeu de données est dérivé du jeu de données OJ de Dominick. Il inclut des données simulées supplémentaires dans le but de fournir un jeu de données qui facilite la formation simultanée de milliers de modèles sur Azure Machine Learning.
La base de données MNIST de chiffres manuscrits présente un ensemble d’entraînement comportant 60 000 exemples, ainsi qu’un ensemble test de 10 000 exemples. Les chiffres présentent une taille normalisée et sont centrés dans une image à taille fixe.
MIcrosoft News Dataset (MIND) est un jeu de données à grande échelle pour la recherche d’actualités suggérées. Il fait office de jeu de données de référence pour les suggestions d’actualités, et de faciliter la recherche dans les systèmes de recommandation et les suggestions d’actualités.