Azure Open Datasets

Artikel
06/01/2023

Verbessern Sie die Genauigkeit Ihrer Machine Learning-Modelle mit öffentlich verfügbaren Datasets. Sparen Sie Zeit bei der Datenermittlung und -vorbereitung, indem Sie zusammengestellte Datasets verwenden, die in Machine Learning-Projekten verwendet werden können.

Transport

Dataset	Beschreibung
TartanAir: AirSim-Simulationsdataset	AirSim-Daten für autonome Fahrzeuge für Simultaneous Localization and Mapping (SLAM) generiert.
NYC Taxi & Limousine Commission – Fahrtenaufzeichnungen für „Yellow Taxi“	Zu den Fahrtenaufzeichnungen für „Yellow Taxi“ gehören Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldete Fahrgastzahlen.
NYC Taxi and Limousine Commission – Fahrtenaufzeichnungen für „Green Taxi“	Zu den Fahrtenaufzeichnungen für „Green Taxi“ gehören Datum/Uhrzeit für Abholung und Ankunft, Start- und Zielort, Fahrtentfernungen, Einzelkosten, Tarifarten, Zahlungsarten und vom Fahrer gemeldete Fahrgastzahlen.
NYC Taxi & Limousine Commission – Fahrtenaufzeichnungen für Mietfahrzeuge (FHV – For-Hire Vehicle)	Zu den Fahrtenaufzeichnungen für Mietfahrzeuge (For-Hire Vehicle) gehören die jeweiligen Lizenznummern der Zentrale, das Datum und die Uhrzeit der Abholung und die Standort-ID der Taxizone.

Gesundheit und Genomik

Dataset	Beschreibung
COVID-19: Data Lake	Die Sammlung „COVID-19 Data Lake“ enthält Datasets zu COVID-19 aus unterschiedlichen Quellen, die Tracking- und Testdaten zu Patientenergebnissen, Social-Distancing-Vorgaben, Krankenhauskapazitäten, Mobilität und weitere Informationen umfassen.
COVID-19 Open Research Dataset	Ein Volltext- und Metadatendataset von wissenschaftlichen Artikeln im Zusammenhang mit COVID-19 und dem Coronavirus, die für Maschinenlesbarkeit optimiert und Forschern auf der ganzen Welt zur Nutzung zur Verfügung gestellt wurden.
Genomics Data Lake	Genomics Data Lake enthält eine Vielzahl öffentlicher Datasets, die Sie kostenlos nutzen und in Ihre Workflows und Anwendungen zur Genomikanalyse integrieren können. Die Datasets enthalten Genomsequenzen, Varianteninformationen und Metadaten zu Probanden und Proben in den Dateiformaten BAM, FASTA, VCF und CSV.

Arbeit und Wirtschaft

Dataset	Beschreibung
Statistik zu Arbeitskräften in den USA	Das Dataset „US Labor Force Statistics“ enthält Statistiken zur Erwerbstätigkeit, zur Erwerbsquote und zur nichtstaatlichen zivilen Bevölkerung nach Alter, Geschlecht und ethnischer Gruppierung. in den USA.
Nationale Beschäftigungszeit und Einnahmen in den USA	Das CES-Programm (Current Employment Statistics) produziert detaillierte Branchenschätzungen für nicht landwirtschaftliche Beschäftigung, Arbeitszeit und Einnahmen von Arbeitnehmern in den USA, die Gehaltsabrechnungen erhalten.
Beschäftigungszeit und Einnahmen in den USA nach Bundesstaat	Das CES-Programm (Current Employment Statistics) produziert detaillierte Branchenschätzungen für nicht landwirtschaftliche Beschäftigung, Arbeitszeit und Einnahmen von Arbeitnehmern in den USA, die Gehaltsabrechnungen erhalten.
Statistik zur Arbeitslosigkeit in den USA nach lokaler Umgebung	Die Datasets „US Local Area Unemployment Statistics“ produzieren monatliche und jährliche Daten zu Beschäftigung, Arbeitslosigkeit und Arbeitskräften für Volkszählungsregionen und -abteilungen, Staaten, Landkreise, Metropolregionen und zahlreiche Städte in den Vereinigten Staaten.
US-Verbraucherpreisindex	Der Verbraucherpreisindex zeigt die durchschnittliche Veränderung der Preise, die von Konsumenten in Städten für bestimmte Waren und Dienstleistungen bezahlt werden, im Laufe der Zeit.
US-Erzeugerpreisindex – Industrie	Der Erzeugerpreisindex (EPI) ist ein Maß für die durchschnittliche zeitliche Veränderung der Verkaufspreise, die inländische Erzeuger für ihre Leistungen erzielen.
US-Erzeugerpreisindex – Güter	Der Erzeugerpreisindex (EPI) ist ein Maß für die durchschnittliche zeitliche Veränderung der Verkaufspreise, die inländische Erzeuger für ihre Waren erzielen.

Bevölkerung und Sicherheit

Dataset	Beschreibung
US-Bevölkerung nach County	US-Bevölkerung nach Geschlecht und ethnischer Gruppe für alle US-Countys nach den Volkszählungen von 2000 und 2010. Dieses Dataset stammt von der Behörde United States Census Bureau.
US-Bevölkerung nach Postleitzahl	US-Bevölkerung nach Geschlecht und ethnischer Gruppe für alle US-Postleitzahlen nach der alle zehn Jahre stattfindenden Volkszählung von 2010. Dieses Dataset stammt von der Behörde United States Census Bureau.
Sicherheitsdaten zu Boston	Daten zu Anrufen der Nummer 311, die der Stadt Boston gemeldet wurden. Dieses Dataset wird im Parquet-Format gespeichert und täglich aktualisiert.
Sicherheitsdaten zu Chicago	Daten zu Anrufen der Nummer 311, die der Stadt Chicago gemeldet wurden. Dieses Dataset wird im Parquet-Format gespeichert und täglich aktualisiert.
Sicherheitsdaten zu New York City	Dieses Dataset enthält alle Anforderungen des 311-Service in New York City von 2010 bis heute. Es wird im Parquet-Format gespeichert und wird regelmäßig aktualisiert.
Sicherheitsdaten zu San Francisco	Anrufe bei der Feuerwehrdienststelle und 311-Fälle in San Francisco. Dieses Dataset enthält historische Datensätze, die von 2015 bis heute gesammelt wurden.
Sicherheitsdaten zu Seattle	911-Einsätze des Seattle Fire Department. Dieses Dataset wird täglich aktualisiert und enthält Datensätze zum Verlauf, die von 2010 bis heute gesammelt wurden.

Ergänzende und allgemeine Datasets

Dataset	Beschreibung
Diabetes	Das „Diabetes“-Dataset besitzt 442 Beispiele mit 10 Features, wodurch es einfach ist, mit Algorithmen für maschinelles Lernen zu beginnen.
Simulierte Daten zum Verkauf von Orangensaft	Dieses Dataset stammt aus dem OJ-Dataset von Dominick und enthält zusätzliche simulierte Daten mit dem Ziel, ein Dataset bereitzustellen, das das gleichzeitige Trainieren von Tausenden von Modellen in Azure Machine Learning vereinfacht.
MNIST-Datenbank handschriftlicher Ziffern	Die MNIST-Datenbank handschriftlicher Ziffern verfügt über 60.000 Tranings- und 10.000 Testbeispiele. Die Größe der Ziffern wurde normalisiert, und die Ziffern wurden in einem Bild mit fester Größe zentriert.
Microsoft News-Empfehlungsdataset	Microsoft News Dataset (MIND) ist ein umfangreiches Dataset für die Recherche von News-Empfehlungen. Es dient als Benchmark-Dataset für News-Empfehlungen und erleichtert die Recherche bei News-Empfehlungen und Empfehlungssystemen.
Gesetzliche Feiertage	Daten zu Feiertagen weltweit aus dem Feiertagspaket von PyPI und von Wikipedia (38 Länder oder Regionen von 1970–2099).
Russian open speech to text	„Russain Open STT“ ist ein großes Open-Source-Dataset für die Spracherkennung für die russische Sprache