Azure Açık Veri Kümeleri

Makale
01/10/2024

Genel olarak kullanılabilir veri kümeleri ile makine öğrenimi modellerinizin doğruluğunu geliştirin. Makine öğrenmesi projelerinde kullanıma hazır olan seçilmiş veri kümelerini kullanarak veri bulma ve hazırlama konusunda zaman kazanın.

Ulaşım

Veri kümesi	Açıklama
TartanAir: Airsim Benzetim Veri Kümesi	Eşzamanlı Yerelleştirme ve Eşlemeyi (SLAM) çözmek için oluşturulan AirSim Otonom araç verileri.
NYC Taksi ve Limuzin Komisyonu - sarı taksi seyahat kayıtları	Sarı taksi seyahati kayıtları teslim ve bırakma tarihlerini/saatlerini, teslim ve bırakma konumlarını, seyahat mesafelerini, listelenmiş ücretleri, fiyat türlerini, ödeme türlerini ve sürücü tarafından bildirilen yolcu sayısını içerir.
NYC Taksi ve Limuzin Komisyonu - yeşil taksi seyahat kayıtları	Yeşil taksi seyahati kayıtları teslim ve bırakma tarihlerini/saatlerini, teslim ve bırakma konumlarını, seyahat mesafelerini, öğeli ücretleri, fiyat türlerini, ödeme türlerini ve sürücü tarafından bildirilen yolcu sayısını içerir.
NYC Taksi ve Limuzin Komisyonu - Kiralık Araç (FHV) seyahat kayıtları	For-Hire Vehicle seyahat kayıtları, gönderim temel lisans numarası ile teslim tarihi, saati ve taksi bölgesi konum kimliğini içerir.

Sağlık ve genomiks

Veri kümesi	Açıklama
COVID-19 Data Lake	COVID-19 Data Lake koleksiyonu, COVID-19 ile ilgili olarak çeşitli kaynaklardan alınmış test ve hasta sonucu izleme verileri, sosyal mesafe ilkesi, hastane kapasitesi, hareketlilik gibi bilgileri içeren veri kümelerinin bir koleksiyondur.
COVID-19 Açık Araştırma Veri Kümesi	COVID-19 ve koronavirüs ile ilgili bilimsel makalelere ait tam metinleri ve meta verileri makine tarafından okunabilecek şekilde iyileştirilmiş olarak içeren ve küresel araştırma topluluğunun kullanımına sunulan veri kümesi.
Genomiks Data Lake	Genomiks Data Lake, ücretsiz olarak erişebileceğiniz ve genomiks analizi iş akışlarınızla uygulamalarınızla tümleştirebileceğiniz çeşitli genel veri kümeleri sağlar. Veri kümesi, BAM, FASTA, VCF ve CSV dosya biçimlerinde genom dizileri, değişkenlik bilgisi ve konu/örnek meta verileri içerir.

İş gücü ve ekonomi

Veri kümesi	Açıklama
ABD İş Gücü İstatistikleri	ABD İşgücü İstatistikleri, ABD’deki yaş, cinsiyet, ırk ve etnik köken gruplarına göre İş Gücü İstatistiklerini, iş gücüne katılım oranlarını ve kurumsal olmayan sivil nüfus bilgilerini sunar. analiz eder.
ABD’de Ulusal Çalışma Saatleri ve Kazançlar	Mevcut İstihdam İstatistikleri (CES) programı, ABD’deki tarım dışı istihdam, çalışma saatleri ve bordrolu çalışan kazançları hakkında ayrıntılı sektör tahminleri üretir.
ABD Eyaletlerinde Çalışma Saatleri ve Kazançlar	Mevcut İstihdam İstatistikleri (CES) programı, ABD’deki tarım dışı istihdam, çalışma saatleri ve bordrolu çalışan kazançları hakkında ayrıntılı sektör tahminleri üretir.
ABD Yerel Bölgelerde İşsizlik İstatistikleri	ABD Yerel Bölge İşsizlik İstatistikleri veri kümeleri; ABD’deki Sayım bölgeleri ile bölümleri, Eyaletler, vilayetler, metropol alanları ve birçok şehir için aylık ve yıllık istihdam, işsizlik ve işgücü verilerini sağlar.
ABD Tüketici Fiyat Endeksi	Tüketici Fiyat Endeksi (CPI), şehirli tüketicilerin tüketici ürün ve hizmetlerinden oluşan bir market arabası için ödediği fiyatta zaman içinde meydana gelen değişikliğin ölçümüdür.
ABD Üretici Fiyat Endeksi - Endüstri	Üretici Fiyat Endeksi (ÜFE), yurt içi üreticilerin çıktıları için aldığı satış fiyatlarında zaman içinde görülen ortalama değişikliğin ölçüsüdür.
ABD Üretici Fiyat Endeksi - Emtia	Üretici Fiyat Endeksi (ÜFE), yurt içi üreticilerin malları için aldığı satış fiyatlarında zaman içinde görülen ortalama değişikliğin ölçüsüdür.

Nüfus ve güvenlik

Veri kümesi	Açıklama
Vilayete Göre ABD Nüfusu	2000 ve 2010 On Yıllık Sayımında her kullanılan her ABD vilayeti için cinsiyet ve ırka göre ABD nüfusu. Bu veri kümesinin kaynağı United States Census Bureau’dur.
Posta Koduna Göre ABD Nüfusu	2010 On Yıllık Sayımında her kullanılan her ABD posta kodu için cinsiyet ve ırka göre ABD nüfusu. Bu veri kümesinin kaynağı United States Census Bureau’dur.
Boston Kasa ty Verileri	Boston şehrinde bildirilen 311 aramaları hakkındaki verileri okuyun. Bu veri kümesi Parquet biçiminde depolanır ve günlük olarak güncelleştirilir.
Chicago Kasa ty Data	Chicago şehrinde bildirilen 311 aramaları hakkındaki verileri okuyun. Bu veri kümesi Parquet biçiminde depolanır ve günlük olarak güncelleştirilir.
New York City Kasa ty Data	Bu veri kümesi 2010’dan günümüze kadar tüm New York City 311 hizmet aramalarını içerir. ™Parquet biçiminde depolanır ve günlük olarak güncelleştirilir.
San Francisco Kasa ty Verileri	San Francisco’daki itfaiye hizmet çağrıları ve 311 olayları. Bu veri kümesi 2015’ten bugüne kadar birikmiş geçmiş kayıtları içerir.
Seattle Kasa ty Verileri	Seattle İtfaiyesi 911 görev dağıtımları. Bu veri kümesi günlük olarak güncelleştirilir ve 2010’den günümüze kadar birikmiş geçmiş kayıtları içerir

Ek ve ortak veri kümeleri

Veri kümesi	Açıklama
Diyabet	10 özelliğe sahip 442 örnek içeren Diabetes (Diyabet) adlı veri kümesi, makine öğrenmesi algoritmalarıyla çalışmaya başlamak için idealdir.
OJ Satış Simülasyon Verileri	Bu veri kümesi, Dominick'in OJ veri kümesinden türetilir ve Azure Machine Learning'de binlerce modeli aynı anda eğitmeye olanak sağlayan bir veri kümesi sağlama hedefiyle fazladan simülasyon verileri içerir.
El yazısı basamakların MNIST veritabanı	El yazısı rakamlardan oluşan MNIST veritabanı, 60.000 örnekli bir eğitim seti ve 10.000 örnekli bir test seti içerir. Rakamlar normal boyuttadır ve sabit boyutlu bir görüntüde ortalanmıştır.
Microsoft Haber öneri veri kümesi	Microsoft Haber Veri Kümesi (MIND), haber önerisi araştırması için büyük ölçekli bir veri kümesidir. Haber önerisi için bir karşılaştırma veri kümesi görevi görür ve haber önerisi ve öneride bulunan sistemlerde araştırmayı kolaylaştırır.
Resmi tatiller	1970 ile 2099 yılları arasında 38 ülke veya bölgeyi kapsayan PyPI tatil paketi ve Wikipedia’dan alınan dünya genelindeki resmi tatil verileri.
Rusça açık konuşmayı metne dönüştürme	Rusça Açık STT, Rusça dili için büyük ölçekli bir açık konuşma metin veri kümesidir