你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure 开放数据集

项目
06/15/2023

使用公开的数据集提高机器学习模型的准确性。使用准备用于机器学习项目的策展数据集可以节约数据发现和准备的时间。

运输

数据集	说明
TartanAir：AirSim 模拟数据集	AirSim Autonomous 汽车数据，生成用来实现即时定位与地图构建 (SLAM)。
纽约市出租车和豪车委员会 - 黄色出租车行程记录	黄色出租车行程记录，其中包括接客和下客的日期/时间、地点、行程距离、各项费用、费率类型、付款方式和驾驶员报告的乘客数量的字段。
纽约市出租车和豪华轿车委员会 - 绿色出租车行程记录	绿色出租车行程记录，其中包括接客和下客的日期/时间、地点、行程距离、各项费用、费率类型、付款方式和驾驶员报告的乘客数量的字段。
纽约市出租车和豪华轿车委员会 - 绿色运营车辆 (FHV) 行程记录	营运车辆的行程记录包含调度基地许可证号，搭车日期、时间和出租车区域位置 ID。

健康和基因组学

数据集	说明
COVID-19 数据湖	新冠肺炎数据湖集合包含来自各种来源的新冠肺炎相关数据集，它涵盖了测试和患者结果跟踪数据、社交距离策略、医院容纳能力和流动性等等。
COVID-19 开放式研究数据库	新冠肺炎和冠状病毒相关学术文章的全文内容和元数据数据集已经过优化，便于计算机阅读，同时还提供给全球研究者使用。
基因组学数据湖	基因组学数据湖提供了各种公共数据集，你可免费访问它们，也可将它们集成到你的基因组学分析工作流和应用程序中。该数据集包含 BAM、FASTA、VCF 和 CSV 文件格式的基因组序列、变体信息和受试者/样本元数据。

劳动力和经济

数据集	说明
美国劳动力统计信息	美国劳动力统计数据提供了劳动力统计信息、劳动力参与率，以及按年龄、性别、种族和人种划分的非集体户就业人口。。
美国全国工作时数及收入	当前就业统计 (CES) 计划对美国非农就业、工时和工人收入进行了详细的行业估计。
美国各州工作时数及收入	当前就业统计 (CES) 计划对美国非农就业、工时和工人收入进行了详细的行业估计。
美国各地区失业统计信息	美国当地失业率统计数据库为美国人口普查地区及分区、州、县、大都市区和许多城市提供月度和年度就业、失业和劳动力数据。
美国消费者价格指数	消费者价格指数 (CPI) 是衡量城市消费者为一系列市场消费商品和服务所支付的价格随时间变化的平均值。
美国生产者价格指数 - 行业	生产价格指数 (PPI) 是国内生产者产品出售价格随时间变化平均值的测量值。
美国生产者价格指数 - 商品	生产价格指数 (PPI) 是国内生产者商品出售价格随时间变化平均值的测量值。

人口和安全

数据集	说明
按县划分的美国人口	源自 2000 年和 2010 年人口普查（每十年一次）的每个美国县按性别和人种划分的美国人口。该数据集来自美国人口调查局。
按邮政编码划分的美国人口	源自 2010 年人口普查（每十年一次）的每个美国邮政编码按性别和人种划分的美国人口。该数据集来自美国人口调查局。
波士顿安全数据	阅读报告给波士顿市的 311 电话的相关数据。该数据集以 Parquet 格式存储，每日都会更新。
芝加哥安全数据	阅读报告给芝加哥市的 311 电话的相关数据。该数据集以 Parquet 格式存储，每日都会更新。
纽约市安全数据	该数据集包含 2010 年至今纽约市的所有 311 服务请求。它以 Parquet 格式存储，每日都会更新。
旧金山安全数据	旧金山市消防部门呼叫服务和 311 事件。此数据集包含从 2015 年至今累积的历史记录。
西雅图安全数据	西雅图消防部门 911 调遣。该数据集每日都会更新，它包含 2010 年至今累积的历史记录

补充数据集和常用数据集

数据集	说明
糖尿病	糖尿病数据集中包含带有 10 个特性的 442 个样本，因此非常适合用于机器学习算法入门练习。
OJ 销售模拟数据	此数据集派生自 Dominick 的 OJ 数据集，并包含其他模拟数据，目的是提供一个数据集，使你可以轻松地同时在 Azure 机器学习上训练数千个模型。
包含手写数字的 MNIST 数据库	包含手写数字的 MNIST 数据库有一个 60,000 示例的训练集，还有一个 10,000 示例的测试集。这些数字已在大小方面规范化，在固定大小的图像中居中。
Microsoft 资讯推荐数据集	Microsoft 资讯数据集（Microsoft News Dataset，MIND）是用于资讯推荐研究的大规模数据集。将它用作新闻推荐的基准数据集，并辅助新闻推荐和推荐器系统的研究。
公共节假日	全球公共假日数据的来源是 PyPI holidays 数据包和 Wikipedia，涵盖自 1970 年至 2099 年的 38 个国家或地区。
俄语开放语音转文本	Russian Open STT 是一个供俄语使用的大规模开放式的语音转文本数据集