Azure Open Datasets

Artikel
01/10/2024

Förbättra noggrannheten i dina maskininlärningsmodeller med datamängder som är offentligt tillgängliga. Spara tid på dataidentifiering och förberedelse med hjälp av utvalda datauppsättningar som är redo att användas i maskininlärningsprojekt.

Transport

Datamängd	beskrivning
TartanAir: Datauppsättning för AirSim-simulering	AirSim Autonomt fordon som genereras för att lösa samtidig lokalisering och mappning (SLAM).
NYC Taxi & Limousine Kommissionen - gul taxi resa poster	De gula taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
NYC Taxi & Limousine Kommissionen - grön taxi resa poster	De gröna taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) reseposter	Reseposterna För uthyrningsfordon innehåller det sändande baslicensnumret och plats-ID:t för upphämtningsdatum, tid och taxizon.

Hälsa och genomik

Datamängd	beskrivning
COVID-19 Data Lake	COVID-19-datasjön är en samling COVID-19-relaterade datamängder från olika källor med bland annat spårningsdata om testning och patientresultat, riktlinjer för social distansering, sjukhuskapacitet, mobilitet osv.
COVID-19 Open Research Dataset	En datamängd med vetenskapliga fulltextartiklar och metadata om COVID-19 och coronaviruset som optimerats för maskinläsning och gjorts tillgängliga för forskning globalt.
Genomics Data Lake	Genomics Data Lake innehåller olika offentliga datauppsättningar som du kan komma åt kostnadsfritt och integrera i arbetsflöden och program för genomikanalys. Datamängderna innehåller genomsekvenser, data om varianter och metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.

Arbete och ekonomi

Datamängd	beskrivning
US Labor Force Statistics (statistik om arbetskraft i USA)	Amerikansk arbetskraftsstatistik om arbetskraft, arbetskraftsdeltagande och civil icke-institutionell befolkning efter ålder, kön, ras och etniska grupper. i USA.
US National Employment Hours and Earnings (arbetstimmar och inkomst i USA på nationell nivå)	Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
US State Employment Hours and Earnings (arbetstimmar och inkomst i USA på delstatsnivå)	Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
US Local Area Unemployment Statistics (statistik om arbetslöshet i USA på lokal nivå)	De amerikanska datamängderna från LAUS-programmet (Local Area Unemployment Statistics) tillhandahåller månatliga och årliga data om sysselsättning, arbetslöshet och arbetskraft för folkräkningsregioner, delstater, huvudstad/storstad och ett flertal andra städer i USA.
US Consumer Price Index	Konsumentprisindex är ett mått på den genomsnittliga förändringen över tid av de priser som betalas av urbana konsumenter för en varukorg med konsumtionsvaror och tjänster.
US Producer Price Index – Bransch	Producentprisindex (PPI) är ett mått på den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter erhåller.
US Producer Price Index – Råvaror	Producentprisindex (PPI) är ett mått på den genomsnittliga förändringen över tid i de försäljningspriser som inhemska producenter tar för sina varor.

Befolkning och säkerhet

Datamängd	beskrivning
Befolkning i USA efter delstat	Befolkning i USA efter kön och ras för varje delstat i USA från Decennial Census 2000 och 2010. Den här datamängden hämtas från United States Census Bureau.
Befolkning i USA efter postnummer	Befolkning efter kön och ras för varje postnummer i USA från Decennial Census 2010. Den här datamängden hämtas från United States Census Bureau.
Boston Valv ty Data	Läs data om 311-samtal som rapporterats i Boston. Den här datamängden lagras i formatet Parquet och uppdateras dagligen.
Chicago Valv ty Data	Läs data om 311-samtal som rapporterats i Chicago. Den här datamängden lagras i formatet Parquet och uppdateras dagligen.
Data för New York City Valv ty	Den här datamängden innehåller alla 311-tjänstbegäranden i New York City från 2010 fram till nutid. Itâ € ™lagras i Parquet-format och uppdateras dagligen.
San Francisco-Valv data	Samtal till brandkåren om hjälp och 311-ärenden i San Francisco. Datamängden innehåller historiska poster som ackumulerats från 2015 fram till nutid.
Seattle Valv ty Data	Larmrapporter från brandkåren i Seattle. Den här datamängden uppdateras dagligen och innehåller historiska poster som ackumulerats från 2010 fram till nutid

Kompletterande och vanliga datauppsättningar

Datamängd	beskrivning
Diabetes	Diabetes-datamängden innehåller 442 exempel med 10 funktioner, vilket gör den idealisk för att komma igång med Machine Learning-algoritmer.
OJ Sales Simulated Data	Den här datamängden härleds från Dominicks OJ-datauppsättning och innehåller extra simulerade data med målet att tillhandahålla en datauppsättning som gör det enkelt att samtidigt träna tusentals modeller på Azure Machine Learning.
MNIST-databas med handskrivna siffror	MNIST-databasen med handskrivna siffror har en träningsuppsättning med 60 000 exempel och en testuppsättning med 10 000 exempel. Siffrorna har storleksnormaliserats och centrerats i en bild med fast storlek.
Microsoft News-rekommendationsdatauppsättning	Microsoft News Dataset (MIND) är en storskalig datauppsättning för nyhetsrekommendationsforskning. Det fungerar som en benchmark-datauppsättning för nyhetsrekommendationer och underlättar forskning i nyhetsrekommendationer och rekommendationssystem.
Helgdagar	Information om allmänna helgdagar över hela världen från PyPI-paketet för helgdagar och Wikipedia, som omfattar 38 länder och regioner från 1970 till 2099.
Ryskt öppet tal till text	Russian Open STT är ett storskaligt öppet tal till textdatauppsättning för det ryska språket