Azure Open Datasets

Verbessern Sie die Genauigkeit Ihrer Machine Learning-Modelle mit öffentlich verfügbaren Datasets. Sparen Sie Zeit bei der Datenermittlung und -vorbereitung, indem Sie zusammengestellte Datasets verwenden, die in Machine Learning-Projekten verwendet werden können.

Transport

Dataset Beschreibung
TartanAir: AirSim-Simulationsdataset AirSim-Daten für autonome Fahrzeuge für Simultaneous Localization and Mapping (SLAM) generiert.
NYC Taxi & Limousine Commission – Fahrtenaufzeichnungen für „Yellow Taxi“ Zu den Fahrtenaufzeichnungen für „Yellow Taxi“ gehören Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldete Fahrgastzahlen.
NYC Taxi and Limousine Commission – Fahrtenaufzeichnungen für „Green Taxi“ Zu den Fahrtenaufzeichnungen für „Green Taxi“ gehören Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldete Fahrgastzahlen.
NYC Taxi & Limousine Commission – Fahrtenaufzeichnungen für Mietfahrzeuge (FHV – For-Hire Vehicle) Zu den Fahrtenaufzeichnungen für Mietfahrzeuge (For-Hire Vehicle) gehören die jeweiligen Lizenznummern der Zentrale, das Datum und die Uhrzeit der Abholung und die Standort-ID der Taxizone.

Gesundheit und Genomik

Dataset Beschreibung
COVID-19: Data Lake Die Sammlung „COVID-19 Data Lake“ enthält Datasets zu COVID-19 aus unterschiedlichen Quellen, die Tracking- und Testdaten zu Patientenergebnissen, Social-Distancing-Vorgaben, Krankenhauskapazitäten, Mobilität und weitere Informationen umfassen.
COVID-19 Open Research Dataset Ein Volltext- und Metadatendataset von wissenschaftlichen Artikeln im Zusammenhang mit COVID-19 und dem Coronavirus, die für Maschinenlesbarkeit optimiert und Forschern auf der ganzen Welt zur Nutzung zur Verfügung gestellt wurden.
Genomics Data Lake Genomics Data Lake enthält eine Vielzahl öffentlicher Datasets, die Sie kostenlos nutzen und in Ihre Workflows und Anwendungen zur Genomikanalyse integrieren können. Die Datasets enthalten Genomsequenzen, Varianteninformationen und Metadaten zu Probanden und Proben in den Dateiformaten BAM, FASTA, VCF und CSV.

Arbeit und Wirtschaft

Dataset Beschreibung
Statistik zu Arbeitskräften in den USA Das Dataset „US Labor Force Statistics“ enthält Statistiken zur Erwerbstätigkeit, zur Erwerbsquote und zur nichtstaatlichen zivilen Bevölkerung nach Alter, Geschlecht und ethnischer Gruppierung. in den USA.
Nationale Beschäftigungszeit und Einnahmen in den USA Das CES-Programm (Current Employment Statistics) produziert detaillierte Branchenschätzungen für nicht landwirtschaftliche Beschäftigung, Arbeitszeit und Einnahmen von Arbeitnehmern in den USA, die Gehaltsabrechnungen erhalten.
Beschäftigungszeit und Einnahmen in den USA nach Bundesstaat Das CES-Programm (Current Employment Statistics) produziert detaillierte Branchenschätzungen für nicht landwirtschaftliche Beschäftigung, Arbeitszeit und Einnahmen von Arbeitnehmern in den USA, die Gehaltsabrechnungen erhalten.
Statistik zur Arbeitslosigkeit in den USA nach lokaler Umgebung Die Datasets „US Local Area Unemployment Statistics“ produzieren monatliche und jährliche Daten zu Beschäftigung, Arbeitslosigkeit und Arbeitskräften für Volkszählungsregionen und -abteilungen, Staaten, Landkreise, Metropolregionen und zahlreiche Städte in den Vereinigten Staaten.
US-Verbraucherpreisindex Der Verbraucherpreisindex zeigt die durchschnittliche Veränderung der Preise, die von Konsumenten in Städten für bestimmte Waren und Dienstleistungen bezahlt werden, im Laufe der Zeit.
US-Erzeugerpreisindex – Industrie Der Erzeugerpreisindex (EPI) ist ein Maß für die durchschnittliche zeitliche Veränderung der Verkaufspreise, die inländische Erzeuger für ihre Leistungen erzielen.
US-Erzeugerpreisindex – Güter Der Erzeugerpreisindex (EPI) ist ein Maß für die durchschnittliche zeitliche Veränderung der Verkaufspreise, die inländische Erzeuger für ihre Waren erzielen.

Bevölkerung und Sicherheit

Dataset Beschreibung
US-Bevölkerung nach County US-Bevölkerung nach Geschlecht und ethnischer Gruppe für alle US-Countys nach den Volkszählungen von 2000 und 2010. Dieses Dataset stammt von der Behörde United States Census Bureau.
US-Bevölkerung nach Postleitzahl US-Bevölkerung nach Geschlecht und ethnischer Gruppe für alle US-Postleitzahlen nach der alle zehn Jahre stattfindenden Volkszählung von 2010. Dieses Dataset stammt von der Behörde United States Census Bureau.
Sicherheitsdaten zu Boston Daten zu Anrufen der Nummer 311, die der Stadt Boston gemeldet wurden. Dieses Dataset wird im Parquet-Format gespeichert und täglich aktualisiert.
Sicherheitsdaten zu Chicago Daten zu Anrufen der Nummer 311, die der Stadt Chicago gemeldet wurden. Dieses Dataset wird im Parquet-Format gespeichert und täglich aktualisiert.
Sicherheitsdaten zu New York City Dieses Dataset enthält alle Anforderungen des 311-Service in New York City von 2010 bis heute. Es wird im Parquet-Format gespeichert und wird regelmäßig aktualisiert.
Sicherheitsdaten zu San Francisco Anrufe bei der Feuerwehrdienststelle und 311-Fälle in San Francisco. Dieses Dataset enthält historische Datensätze, die von 2015 bis heute gesammelt wurden.
Sicherheitsdaten zu Seattle 911-Einsätze des Seattle Fire Department. Dieses Dataset wird täglich aktualisiert und enthält Datensätze zum Verlauf, die von 2010 bis heute gesammelt wurden.

Ergänzende und allgemeine Datasets

Dataset Beschreibung
Diabetes Das „Diabetes“-Dataset besitzt 442 Beispiele mit 10 Features, wodurch es einfach ist, mit Algorithmen für maschinelles Lernen zu beginnen.
Simulierte Daten zum Verkauf von Orangensaft Dieses Dataset stammt aus dem OJ-Dataset von Dominick und enthält zusätzliche simulierte Daten mit dem Ziel, ein Dataset bereitzustellen, das das gleichzeitige Trainieren von Tausenden von Modellen in Azure Machine Learning vereinfacht.
MNIST-Datenbank handschriftlicher Ziffern Die MNIST-Datenbank handschriftlicher Ziffern verfügt über 60.000 Tranings- und 10.000 Testbeispiele. Die Größe der Ziffern wurde normalisiert, und die Ziffern wurden in einem Bild mit fester Größe zentriert.
Microsoft News-Empfehlungsdataset Microsoft News Dataset (MIND) ist ein umfangreiches Dataset für die Recherche von News-Empfehlungen. Es dient als Benchmark-Dataset für News-Empfehlungen und erleichtert die Recherche bei News-Empfehlungen und Empfehlungssystemen.
Gesetzliche Feiertage Daten zu Feiertagen weltweit aus dem Feiertagspaket von PyPI und von Wikipedia (38 Länder oder Regionen von 1970–2099).
Russian open speech to text „Russain Open STT“ ist ein großes Open-Source-Dataset für die Spracherkennung für die russische Sprache