Azure 開放資料集
使用公開的資料集改進機器學習模型的正確性。 使用已準備好在機器學習專案中使用的策劃數據集,以節省數據探索和準備的時間。
Transportation
健康與基因組學
資料集 |
描述 |
COVID-19 Data Lake |
新型冠狀病毒 (COVID-19) Data Lake 集合集結了各種來源的新型冠狀病毒 (COVID-19) 相關資料集,涵蓋檢測及病患結果追蹤資料、社交距離政策、醫院量能、人潮流動情況等。 |
COVID-19 開放研究數據集 |
新型冠狀病毒 (COVID-19) 及冠狀病毒相關的學術性文章全文與中繼資料資料集,已經過優化而使機器能夠讀取,並開放給全球研究社群使用。 |
Genomics Data Lake |
Genomics Data Lake 提供各種公用數據集,您可以免費存取,並整合到您的 Genomics 分析工作流程和應用程式。 本資料集包含基因體序列、變異資訊,以及 BAM、FASTA、VCF、CSV 檔案格式的主體/樣本中繼資料。 |
勞動與經濟學
母體和安全性
資料集 |
描述 |
美國人口數 (依郡排列) |
美國各郡縣十年一度 (2000 年和 2010 年) 普查的美國人口數 (依性別和種族)。 此資料集的資料來源為美國人口普查局。 |
美國人口數 (依郵遞區號排列) |
美國各郵遞區號 2010 年十年一度普查的美國人口數 (依性別和種族)。 此資料集的資料來源為美國人口普查局。 |
波士頓 保管庫 數據 |
閱讀向波士頓市通報的 311 通話相關資料。 此資料集以 Parquet 格式儲存,並每日更新。 |
芝加哥 保管庫 數據 |
閱讀向芝加哥市通報的 311 通話相關資料。 此資料集以 Parquet 格式儲存,並每日更新。 |
紐約市 保管庫 數據 |
此資料集包含 2010 年至今所有的紐約市 311 服務要求。 ™ 它以 Parquet 格式儲存,並每日更新。 |
三藩市 保管庫 數據 |
舊金山的消防部門服務通話和 311 案件。 此資料集包含從 2015 年累積至今的歷史記錄。 |
Seattle 保管庫 ty Data |
西雅圖消防部門 911 調度中心。 此資料集會每日更新,並包含 2010 年累積至今的歷史記錄 |
補充和通用數據集
資料集 |
描述 |
糖尿病 |
糖尿病資料集有 442 份具有 10 項特徵的範例,因此很適合作為機器學習演算法入門。 |
OJ 銷售模擬數據 |
此數據集衍生自 Dominick 的 OJ 數據集,並包含額外的模擬數據,目標是提供數據集,讓您輕鬆地在 Azure 機器學習 上同時定型數千個模型。 |
手寫數位的 MNIST 資料庫 |
手寫數字的 MNIST 資料庫包含一個訓練集 (共有 60,000 個範例) 及一個測試集 (共有 10,000 個範例)。 數字已大小正規化且在固定大小的影像置中。 |
Microsoft 新聞 建議數據集 |
Microsoft 新聞 數據集 (MIND) 是新聞推薦研究的大型數據集。 它可作為新聞推薦的基準數據集,並協助研究新聞推薦和推薦系統。 |
公共假日 |
來自 PyPI 假日套件和 Wikipedia 的全球國定假日資料,涵蓋 1970 年至 2099 年的 38 個國家或地區。 |
俄文對文字的公開演講 |
俄文 Open STT 是適用於俄文的大型開放式語音轉換文字數據集 |