Azure Open Datasets

Cikk
01/10/2024

Gépi tanulási modelljeinek pontosságát nyilvánosan elérhető adatkészletekkel javíthatja. Időt takaríthat meg az adatfelderítéssel és -előkészítéssel, ha olyan válogatott adathalmazokat használ, amelyek készen állnak a gépi tanulási projektekben való használatra.

Szállítmányozás

Adathalmaz	Leírás
TartanAir: AirSim-szimulációs adatkészlet	Az Egyidejű honosítás és leképezés (SLAM) megoldásához létrehozott AirSim autonóm járműadatok.
NYC Taxi &Limuzin Bizottság - sárga taxi utazás rekordok	A sárga taxiút rekordjai közé tartoznak a pick-up és a legördülő dátumok/időpontok, a pick-up és a legördülő helyek, az utazási távolságok, a tételes viteldíjak, a díjtípusok, a fizetési típusok és a sofőr által jelentett utasok száma.
NYC Taxi &Limuzin Bizottság - zöld taxi utazás rekordok	A zöld taxiút rekordjai közé tartoznak a pick-up és a legördülő dátumok/időpontok, a pick-up és a legördülő helyek, az utazási távolságok, a tételes viteldíjak, a díjtípusok, a fizetési típusok és a sofőr által jelentett utasok száma.
NYC Taxi &Limuzin Bizottság - For-Hire Jármű (FHV) utazási rekordok	A Bérbevevő jármű utazási nyilvántartása tartalmazza a feladási alaplicenc számát, valamint az átvétel dátumát, időpontját és taxizóna-azonosítóját.

Egészség és genomika

Adathalmaz	Leírás
COVID-19 Data Lake	A COVID-19 Data Lake gyűjtemény a COVID-19-cel kapcsolatos, különböző forrásokból származó adatokat, többek között a tesztelések és az páciensek eredményeire vonatkozó megfigyelési adatokat, közösségi távolságtartási szabályokat, a kórházak befogadóképességével és a mobilitással kapcsolatos információkat tartalmaz.
COVID-19 Open Research Dataset	A COVID–19-cel és a koronavírussal összefüggő tudományos cikkek teljes szövege és azok metaadatainak adatkészletei optimalizálva vannak gépi olvasásra, és felhasználhatja őket a kutatói közösség világszerte.
Genomics Data Lake	A Genomics Data Lake különböző nyilvános adatkészleteket biztosít, amelyek ingyenesen elérhetők, és integrálhatók a genomikai elemzési munkafolyamatokba és alkalmazásokba. Az adatkészlet genomszekvenciákat, variánsadatokat és alany/minta metaadatokat tartalmaz BAM, FASTA, VCF és CSV fájlformátumokban.

Munka és közgazdaságtan

Adathalmaz	Leírás
USA munkaerőpiaci statisztika	A US Labor Force Statistics munkaerő-statisztikákat, munkaerő-foglalkoztatottsági arányokat, valamint a nem intézményi civil lakosság kor, nem, valamint faji és etnikai hovatartozás szerinti adatait tartalmazza. az Egyesült Államokban.
USA – országos munkaidő- és jövedelemadatok	A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
USA-beli államokra vonatkozó foglalkoztatási munkaidő és keresetek	A Current Employment Statistics (CES – Aktuális foglalkoztatási statisztikák) program részletes iparági becsléseket nyújt a nem mezőgazdasági foglalkoztatásról, a munkaórákról, valamint a fizetett munkavállalók bevételéről az Egyesült Államokban.
USA – helyi munkanélküliségi statisztika	A US Local Area Unemployment Statistics (Helyi területi munkanélküliségi statisztikák) adatkészletek havi és éves foglalkoztatottsági, munkanélküliségi és munkaerővel kapcsolatos adatokat szolgáltat a népszámlálási régiók és részlegek, államok, megyék, nagyvárosi területek, valamint számos város számára az Egyesült Államokban.
Egyesült Államok fogyasztói árindexe	A fogyasztói árindex (CPI) méri a lakosság által megvásárolt áruk, igénybe vett szolgáltatások árának átlagos változását egy meghatározott időintervallumon belül.
Egyesült Államok termelői árindex – ipar	A termelői árindex (PPI) méri a belföldi termelők eladási árainak átlagos változását egy meghatározott időintervallumon belül.
Egyesült Államok termelői árindexe – árucikkek	A termelői árindex (PPI) méri a belföldi termelők eladási árainak átlagos változását egy meghatározott időintervallumon belül.

Népesség és biztonság

Adathalmaz	Leírás
Az Egyesült Államok lakossága megye szerint	Az amerikai lakosság megyénkénti eloszlása nem és faji hovatartozás alapján a 2000-es és a 2010-es tízévenkénti népszámlálás adatai szerint. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Az Egyesült Államok lakossága irányítószám szerint	Az amerikai lakosság irányítószám szerinti eloszlása nem és faji hovatartozás alapján a 2010-es tízévenkénti népszámlálás adatai szerint. Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatala.
Boston Széf ty Data	Olvasási adatok a Bostonban bejelentett 311-es hívásokról. Az adatkészlet Parquet formátumban van tárolva, és naponta frissül.
Chicago Széf ty Data	Olvasási adatok a Chicagóban bejelentett 311-es hívásokról. Az adatkészlet Parquet formátumban van tárolva, és naponta frissül.
New York city Széf ty Data	Ez az adatkészlet a New York városban a 311-es számra érkezett összes bejelentést tartalmazza 2010-től máig. Itâ € ™s tárolt Parquet formátumban, és naponta frissítve.
San Francisco Széf ty Data	Tűzoltósági riasztások és 311-es esetek San Franciscóban. Az adatkészlet a 2015-től mostanáig összegyűlt rekordokat tartalmazza.
Seattle Széf ty Data	A Seattle-i tűzoltóság segélyhívásra reagáló intézkedései. Az adatkészlet naponta frissül, és a 2010-től mostanáig összegyűlt rekordokat tartalmazza

Kiegészítő és gyakori adatkészletek

Adathalmaz	Leírás
Cukorbetegség	A diabétesz adatkészlet 442 mintát tartalmaz 10 jellemzővel, így ideális választás ahhoz, hogy megismerkedjünk a gépi tanulási algoritmusokkal.
HL Értékesítési szimulált adatok	Ez az adatkészlet a Dominick OJ-adatkészletéből származik, és további szimulált adatokat tartalmaz azzal a céllal, hogy olyan adatkészletet biztosítson, amely megkönnyíti több ezer modell egyidejű betanítása az Azure Machine Tanulás.
Kézzel írt számjegyek MNIST-adatbázisa	A kézzel írt számjegyeket tartalmazó MNIST-adatbázis egy 60 000 példát tartalmazó betanítási készletből és egy 10 000 példát tartalmazó tesztelési készletből áll. A számjegyek egységesített méretűek és az azonos méretű képek közepére vannak rendezve.
Microsoft News-javaslat adatkészlet	A Microsoft News Dataset (MIND) egy nagy méretű adatkészlet a hírjavaslatok kutatásához. Referenciaadatkészletként szolgál a hírek ajánlásához, és elősegíti a hírjavaslatok és ajánlórendszerek kutatását.
Munkaszüneti	A PyPI szabadnapos csomagja és a Wikipedia alapján készült nyilvános szabadnapi adatok, 38 országra vagy régióra vonatkozóan, 1970. és 2099 között.
Orosz nyílt beszéd a szöveghez	Az Orosz Nyílt STT egy nagy léptékű nyílt beszéd az orosz nyelv szöveges adatkészletének