Popraw dokładność swoich modeli uczenia maszynowego za pomocą publicznie dostępnych zestawów danych. Oszczędzaj czas na odnajdywanie i przygotowywanie danych przy użyciu wyselekcjonowanych zestawów danych gotowych do użycia w projektach uczenia maszynowego.
Żółte rekordy przejazdów taksówką obejmują daty odbioru i drop-off/ godziny, pick-up i drop-off lokalizacji, odległości podróży, wyszczególnione taryfy, typy stawek, typy płatności i liczby pasażerów zgłaszane przez kierowców.
Rekordy zielonych przejazdów taksówką obejmują daty odbioru i wysyłce/godziny, lokalizacje odbioru i drop-off, odległości podróży, wyszczególnione taryfy, typy stawek, typy płatności i liczby pasażerów zgłaszane przez kierowców.
Kolekcja usługi COVID-19 Data Lake zawiera zestawy danych związane z chorobą COVID-19, pochodzące z różnych źródeł, obejmujące dane śledzenia testowania i wyników pacjentów, politykę utrzymania dystansu społecznego, przepustowość szpitali, mobilność itp.
Zestaw danych obejmujący pełne teksty i metadane artykułów naukowych dotyczących epidemii COVID-19 i koronawirusa, zoptymalizowany pod kątem odczytu przez maszyny i udostępniony do użytku przez globalną społeczność badaczy.
Usługa Genomics Data Lake udostępnia różne publiczne zestawy danych, do których można uzyskać bezpłatny dostęp i zintegrować je z przepływami pracy i aplikacjami analizy genomics. Zestawy danych obejmują sekwencje genów, informacje o odmianie oraz metadane podmiotu/próbki w formatach plików BAM, FASTA, VCF i CSV.
US Labor Force Statistics (Statystyki dotyczące siły roboczej w USA) dostarczają statystyk dotyczących siły roboczej — zasób siły roboczej, odsetek ludności aktywnej zawodowo oraz populacja z wyłączeniem wojskowych i osób przebywających w instytucjach, z podziałem według wieku, płci, rasy i pochodzenia etnicznego. w Stanach Zjednoczonych.
Program CES (Current Employment Statistics — aktualne statystyki zatrudnienia) generuje szczegółowe szacunkowe dane dotyczące zatrudnienia poza sektorem rolniczym, czasu pracy oraz wynagrodzeń pracowników zatrudnionych w różnych branżach w Stanach Zjednoczonych.
Program CES (Current Employment Statistics — aktualne statystyki zatrudnienia) generuje szczegółowe szacunkowe dane dotyczące zatrudnienia poza sektorem rolniczym, czasu pracy oraz wynagrodzeń pracowników zatrudnionych w różnych branżach w Stanach Zjednoczonych.
Zestawy danych programu US Local Area Unemployment Statistics (Lokalne statystyki bezrobocia w Stanach Zjednoczonych) dostarczają miesięcznych i rocznych danych dotyczących zatrudnienia, bezrobocia i zasobu siły roboczej w poszczególnych regionach i okręgach spisowych, stanach, hrabstwach, obszarach metropolitalnych i wielu miastach w Stanach Zjednoczonych.
Wskaźnik cen towarów i usług konsumpcyjnych (CPI) mierzy średnią zmianę w czasie cen zakupu rynkowego koszyka towarów i usług konsumpcyjnych dla konsumentów mieszkających w miastach.
Wskaźnik cen dóbr produkcyjnych (producer price index, PPI) mierzy średnią zmianę cen sprzedaży, które otrzymują krajowi producenci za swoje towary, w czasie.
Wskaźnik cen dóbr produkcyjnych (producer price index, PPI) mierzy średnią zmianę cen sprzedaży, które otrzymują krajowi producenci za swoje towary, w czasie.
Populacja USA według płci i rasy dla każdego amerykańskiego hrabstwa, na podstawie spisów ludności z roku 2000 i 2010. Źródłem tego zestawu danych jest agencja United States Census Bureau.
Populacja USA według płci i rasy dla każdego amerykańskiego kodu pocztowego, na podstawie spisu ludności z roku 2010. Źródłem tego zestawu danych jest agencja United States Census Bureau.
Przeczytaj dane dotyczące połączeń z numerem 311 zgłoszonych w Bostonie. Ten zestaw danych jest przechowywany w formacie Parquet i jest codziennie aktualizowany.
Przeczytaj dane dotyczące połączeń z numerem 311 zgłoszonych w Chicago. Ten zestaw danych jest przechowywany w formacie Parquet i jest codziennie aktualizowany.
Ten zestaw danych zawiera wszystkie zgłoszenia na numer 311 w Nowym Jorku od roku 2010. Itâ € ™s przechowywane w formacie Parquet i aktualizowane codziennie.
Zestaw danych Diabetes (Cukrzyca) ma 442 próbki z 10 funkcjami, dzięki czemu doskonale nadaje się do rozpoczęcia korzystania z algorytmów uczenia maszynowego.
Ten zestaw danych pochodzi z zestawu danych OJ Firmy Dominick i zawiera dodatkowe symulowane dane w celu udostępnienia zestawu danych, który ułatwia jednoczesne trenowanie tysięcy modeli w usłudze Azure Machine Edukacja.
Baza danych napisanych odręcznie cyfr MNIST obejmuje zestaw treningowy zawierający 60 000 przykładów oraz zestaw testowy zawierający 10 000 przykładów. Cyfry zostały znormalizowane pod względem rozmiaru i wyśrodkowane na obrazie o stałym rozmiarze.
Microsoft News Dataset (MIND) to zestaw danych na dużą skalę na potrzeby badań rekomendacji dotyczących wiadomości. Służy jako zestaw danych porównawczych dla rekomendacji dotyczących wiadomości i ułatwia badania w systemach rekomendacji dotyczących wiadomości i rekomendacji.