Azure 開放資料集

發行項
01/10/2024

使用公開的資料集改進機器學習模型的正確性。使用已準備好在機器學習專案中使用的策劃數據集，以節省數據探索和準備的時間。

Transportation

資料集	描述
TartanAir：AirSim 模擬數據集	為了解決同時當地語系化和對應（SLAM）所產生的 AirSim 自主車輛數據。
NYC 計程車和豪華轎車委員會 - 黃色計程車車程記錄	黃色計程車車程記錄包括上車和下車日期/時間、上車和下車地點、車程距離、分項票價、費率類型、付款類型和司機報告的乘客計數。
NYC 計程車和豪華轎車委員會 - 綠色計程車車程記錄	綠色計程車車程記錄包括取貨和下車日期/時間、上車和下車地點、車程距離、具體票價、費率類型、付款類型和司機報告的乘客計數。
NYC 計程車和豪華轎車委員會 - 出租車輛（FHV）車程記錄	「出租車輛」車程記錄包括發送基礎授權號碼和取貨日期、時間和計程車區域位置標識符。

健康與基因組學

資料集	描述
COVID-19 Data Lake	新型冠狀病毒 (COVID-19) Data Lake 集合集結了各種來源的新型冠狀病毒 (COVID-19) 相關資料集，涵蓋檢測及病患結果追蹤資料、社交距離政策、醫院量能、人潮流動情況等。
COVID-19 開放研究數據集	新型冠狀病毒 (COVID-19) 及冠狀病毒相關的學術性文章全文與中繼資料資料集，已經過優化而使機器能夠讀取，並開放給全球研究社群使用。
Genomics Data Lake	Genomics Data Lake 提供各種公用數據集，您可以免費存取，並整合到您的 Genomics 分析工作流程和應用程式。本資料集包含基因體序列、變異資訊，以及 BAM、FASTA、VCF、CSV 檔案格式的主體/樣本中繼資料。

勞動與經濟學

資料集	描述
US Labor Force Statistics (美國勞動力統計資料)	美國勞動力統計資料提供依年齡、性別、種族與族裔群體分列的勞動力統計資料、勞動力參與率及適齡的勞動人口。美國境內。
US National Employment Hours and Earnings (美國全國的工時與工資)	目前就業統計 (CES) 計劃會產生詳細的美國非農就業產業預估值、工作時數和工作者的薪資收入。
US State Employment Hours and Earnings (美國各州的工時與工資)	目前就業統計 (CES) 計劃會產生詳細的美國非農就業產業預估值、工作時數和工作者的薪資收入。
US Local Area Unemployment Statistics (美國各地區域的失業統計資料)	美國地區別失業統計資料 (LAUS) 資料集提供美國普查區域和行政區、州/省、郡縣、都會區和許多城市的月度和年度就業、失業和勞動力資料。
美國消費者物價指數	消費者物價指數 (CPI) 是一種指標，用來衡量都市消費者對消費性商品和服務所支付之價格隨時間的平均變化。
US Producer Price Index - Industry (美國生產者物價指數 - 產業)	生產者物價指數 (PPI) 用於衡量一段時間內國內生產者就其生產所獲售價的平均變化情況。
US Producer Price Index - Commodities (美國生產物價指數 - 商品)	生產者物價指數 (PPI) 用於衡量一段時間內國內生產者就其商品所獲售價的平均變化情況。

母體和安全性

資料集	描述
美國人口數 (依郡排列)	美國各郡縣十年一度 (2000 年和 2010 年) 普查的美國人口數 (依性別和種族)。此資料集的資料來源為美國人口普查局。
美國人口數 (依郵遞區號排列)	美國各郵遞區號 2010 年十年一度普查的美國人口數 (依性別和種族)。此資料集的資料來源為美國人口普查局。
波士頓保管庫數據	閱讀向波士頓市通報的 311 通話相關資料。此資料集以 Parquet 格式儲存，並每日更新。
芝加哥保管庫數據	閱讀向芝加哥市通報的 311 通話相關資料。此資料集以 Parquet 格式儲存，並每日更新。
紐約市保管庫數據	此資料集包含 2010 年至今所有的紐約市 311 服務要求。 ™ 它以 Parquet 格式儲存，並每日更新。
三藩市保管庫數據	舊金山的消防部門服務通話和 311 案件。此資料集包含從 2015 年累積至今的歷史記錄。
Seattle 保管庫 ty Data	西雅圖消防部門 911 調度中心。此資料集會每日更新，並包含 2010 年累積至今的歷史記錄

補充和通用數據集

資料集	描述
糖尿病	糖尿病資料集有 442 份具有 10 項特徵的範例，因此很適合作為機器學習演算法入門。
OJ 銷售模擬數據	此數據集衍生自 Dominick 的 OJ 數據集，並包含額外的模擬數據，目標是提供數據集，讓您輕鬆地在 Azure 機器學習上同時定型數千個模型。
手寫數位的 MNIST 資料庫	手寫數字的 MNIST 資料庫包含一個訓練集 (共有 60,000 個範例) 及一個測試集 (共有 10,000 個範例)。數字已大小正規化且在固定大小的影像置中。
Microsoft 新聞建議數據集	Microsoft 新聞數據集（MIND）是新聞推薦研究的大型數據集。它可作為新聞推薦的基準數據集，並協助研究新聞推薦和推薦系統。
公共假日	來自 PyPI 假日套件和 Wikipedia 的全球國定假日資料，涵蓋 1970 年至 2099 年的 38 個國家或地區。
俄文對文字的公開演講	俄文 Open STT 是適用於俄文的大型開放式語音轉換文字數據集