Otevřené datové sady Azure

Článek
01/10/2024

Zlepšete přesnost svých modelů strojového učení s využitím veřejně dostupných datových sad. Ušetřete čas při zjišťování a přípravě dat pomocí kurátorovaných datových sad, které jsou připravené k použití v projektech strojového učení.

Doprava

Datová sada	Popis
TartanAir: Datová sada simulace AirSim	Data autonomních vozidel AirSim generovaná k řešení souběžné lokalizace a mapování (SLAM).
NYC Taxi & Limousine Komise - žlutý taxikář záznamy	Žluté záznamy o jízdě taxíkem zahrnují vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem.
NYC Taxi & Limousine Komise - green taxi trip records	Mezi zelené záznamy o jízdě taxíkem patří vyzvednutí a odkládací data a časy, vyzvednutí a odkládací místa, vzdálenosti jízdy, položky jízdné, typy sazeb, typy plateb a počty cestujících hlášených řidičem.
NYC Taxi & Limousine Komise - Pronajmutí vozidla (FHV) záznamy jízdy	Záznamy o jízdě vozidla For-Hire zahrnují číslo základní licence dispečera a datum vyzvednutí, čas a ID polohy zóny taxislužby.

Stav a genomika

Datová sada	Popis
COVID-19 Data Lake	Kolekce Datové jezero COVID-19 je kolekcí datových sad souvisejících s COVID-19 z různých zdrojů a zahrnuje data týkající se testování a výsledků pacientů, zásady společenského odstupu, kapacity nemocnic, mobility atd.
COVID-19 Open Research Dataset	Datová sada metadat a úplného znění pro vědecké články související s COVID-19 a koronavirem, která je optimalizovaná pro strojovou čitelnost a zpřístupněná globální komunitě výzkumných pracovníků
Genomics Data Lake	Genomics Data Lake poskytuje různé veřejné datové sady, ke kterým můžete získat přístup zdarma a integrovat je do pracovních postupů a aplikací pro analýzu genomiky. Tyto datové sady obsahují sekvence genomů, informace o variantách a metadata jednotlivých subjektů/ukázek ve formátech souborů BAM, FASTA, VCF a CSV.

Práce a ekonomika

Datová sada	Popis
Statistika pracovních sil v USA	Statistika pracovní síly USA poskytuje statistické údaje o pracovní síle, míře zapojení pracovní síly a civilním svéprávném obyvatelstvu podle věku, pohlaví, rasy a etnických skupin v USA.
Pracovní doba a výdělky v USA	Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Pracovní doba a výdělky v jednotlivých státech USA	Program Statistika aktuální zaměstnanosti (CES) generuje podrobné odhady zaměstnanosti, pracovních hodin a mezd pracovníků v nezemědělských odvětvích v USA.
Statistika nezaměstnanosti v jednotlivých oblastech USA	Datové sady statistiky místní nezaměstnanosti v USA poskytují měsíční a roční údaje o zaměstnanosti, nezaměstnanosti a pracovní síle pro účely sčítání lidu v jednotlivých oblastech a okresech, státech, okresech, metropolitních oblastech a řadě měst v USA.
Index spotřebitelských cen v USA	Index spotřebitelských cen (CPI) měří průměrnou změnu cen, které městští spotřebitelé zaplatí za spotřební koš zboží a služeb, v průběhu času.
Index cen výrobců v USA – průmysl	Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své výstupy, v průběhu času.
Index výrobních cen v USA – komodity	Index cen výrobců (PPI) měří průměrnou změnu prodejních cen, za které domácí výrobci prodávají své komodity, v průběhu času.

Populace a bezpečnost

Datová sada	Popis
Obyvatelstvo USA podle okresu	Informace o obyvatelstvu jednotlivých okresů USA podle pohlaví a rasy vyplývající z desetiletého sčítání lidu z let 2000 a 2010. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Obyvatelstvo USA podle směrovacího čísla	Informace o obyvatelstvu USA pro jednotlivá PSČ podle pohlaví a rasy vyplývající z desetiletého sčítání lidu z roku 2010. Zdrojem této datové sady je statistický úřad USA (United States Census Bureau).
Boston Sejf ty Data	Prohlédněte si data o nahlášených voláních na linku 311 ve městě Boston. Tato datová sada se uchovává ve formátu Parquet a je denně aktualizovaná.
Chicago Sejf ty Data	Prohlédněte si data o nahlášených voláních na linku 311 ve městě Chicago. Tato datová sada se uchovává ve formátu Parquet a je denně aktualizovaná.
New York City Sejf ty Data	Tato datová sada obsahuje všechny žádosti o služby 311 v New Yorku od roku 2010 až do současnosti. ™Je uložená ve formátu Parquet a denně aktualizována.
San Francisco Sejf ty Data	Volání o zásah hasičů a případy 311 v San Francisku. Tato datová sada obsahuje historické záznamy shromážděné od roku 2015 až do současnosti.
Seattle Sejf ty Data	Výjezdy hasičů v Seattlu v reakci na zavolání na linku 911. Tato datová sada se denně aktualizuje a obsahuje historické záznamy shromážděné od roku 2010 až do současnosti.

Doplňkové a běžné datové sady

Datová sada	Popis
Diabetes	Datová sada Diabetes má 442 vzorků s 10 funkcemi a je ideální pro zahájení práce s algoritmy strojového učení.
OJ Sales Simulated Data	Tato datová sada je odvozená od datové sady Dominick OJ a zahrnuje navíc simulovaná data s cílem poskytnout datovou sadu, která usnadňuje souběžné trénování tisíců modelů na azure Machine Učení.
Databáze MNIST ručně psaných číslic	Databáze MNIST ručně psaných číslic obsahuje trénovací sadu 60 000 příkladů a testovací sadu 10 000 příkladů. Číslice mají normalizovanou velikost a jsou umístěné ve středu obrázku s pevnou velikostí.
Datová sada doporučení Microsoft News	Microsoft News Dataset (MIND) je rozsáhlá datová sada pro výzkum doporučení zpráv. Slouží jako srovnávací datová sada pro doporučení zpráv a usnadňuje výzkum v systémech doporučení a doporučovačů.
Svátcích	Data o celosvětových svátcích pocházející z balíčku PyPI holidays a z Wikipedie, která pokrývají 38 zemí nebo oblastí od roku 1970 do roku 2099.
Ruská otevřená řeč na text	Ruština Open STT je rozsáhlá otevřená řeč na textovou datovou sadu pro ruský jazyk.