Förbättra noggrannheten i dina maskininlärningsmodeller med datamängder som är offentligt tillgängliga. Spara tid på dataidentifiering och förberedelse med hjälp av utvalda datauppsättningar som är redo att användas i maskininlärningsprojekt.
De gula taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
De gröna taxiresorna inkluderar upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och förarrapporterade passagerarantal.
COVID-19-datasjön är en samling COVID-19-relaterade datamängder från olika källor med bland annat spårningsdata om testning och patientresultat, riktlinjer för social distansering, sjukhuskapacitet, mobilitet osv.
En datamängd med vetenskapliga fulltextartiklar och metadata om COVID-19 och coronaviruset som optimerats för maskinläsning och gjorts tillgängliga för forskning globalt.
Genomics Data Lake innehåller olika offentliga datauppsättningar som du kan komma åt kostnadsfritt och integrera i arbetsflöden och program för genomikanalys. Datamängderna innehåller genomsekvenser, data om varianter och metadata för element/urval i filformaten BAM, FASTA, VCF och CSV.
Amerikansk arbetskraftsstatistik om arbetskraft, arbetskraftsdeltagande och civil icke-institutionell befolkning efter ålder, kön, ras och etniska grupper. i USA.
Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
Programmet för arbetsmarknadsstatistik (CES) producerar detaljerade branschberäkningar om anställningar utanför jordbrukssektorn, arbetstimmar och arbetsinkomster för avlönade arbetare i USA.
De amerikanska datamängderna från LAUS-programmet (Local Area Unemployment Statistics) tillhandahåller månatliga och årliga data om sysselsättning, arbetslöshet och arbetskraft för folkräkningsregioner, delstater, huvudstad/storstad och ett flertal andra städer i USA.
Konsumentprisindex är ett mått på den genomsnittliga förändringen över tid av de priser som betalas av urbana konsumenter för en varukorg med konsumtionsvaror och tjänster.
Befolkning i USA efter kön och ras för varje delstat i USA från Decennial Census 2000 och 2010. Den här datamängden hämtas från United States Census Bureau.
Den här datamängden innehåller alla 311-tjänstbegäranden i New York City från 2010 fram till nutid. Itâ € ™lagras i Parquet-format och uppdateras dagligen.
Larmrapporter från brandkåren i Seattle. Den här datamängden uppdateras dagligen och innehåller historiska poster som ackumulerats från 2010 fram till nutid
Den här datamängden härleds från Dominicks OJ-datauppsättning och innehåller extra simulerade data med målet att tillhandahålla en datauppsättning som gör det enkelt att samtidigt träna tusentals modeller på Azure Machine Learning.
MNIST-databasen med handskrivna siffror har en träningsuppsättning med 60 000 exempel och en testuppsättning med 10 000 exempel. Siffrorna har storleksnormaliserats och centrerats i en bild med fast storlek.
Microsoft News Dataset (MIND) är en storskalig datauppsättning för nyhetsrekommendationsforskning. Det fungerar som en benchmark-datauppsättning för nyhetsrekommendationer och underlättar forskning i nyhetsrekommendationer och rekommendationssystem.
Information om allmänna helgdagar över hela världen från PyPI-paketet för helgdagar och Wikipedia, som omfattar 38 länder och regioner från 1970 till 2099.