你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

展示如何使用开放数据集来扩充数据的示例 Jupyter 笔记本

使用 Azure 开放数据集的示例 Jupyter 笔记本展示了如何加载开放数据集，并使用它们来扩充演示数据。所涉及的技术包括使用 Apache Spark 和 Pandas 来处理数据。

重要

如果是在非 Spark 环境中，开放数据集仅允许一次下载一个月的数据，并利用一些类来避免较大数据集出现 MemoryError。

加载 NOAA 集成地面数据库 (ISD) 数据

笔记本	说明
将最近一个月的天气数据加载到 Pandas 数据帧	了解如何将历史天气数据加载到最常用的 Pandas 数据帧。
将最近一个月的天气数据加载到 Spark 数据帧	了解如何将历史天气数据加载到最常用的 Spark 数据帧。

笔记本	说明
联接演示数据和天气数据 - Pandas	在 Pandas 数据帧中，联接 1 个月的传感器位置演示数据集与天气读数。
联接演示数据和天气数据 - Spark	在 Spark 数据帧中，联接传感器位置演示数据集与天气读数。

笔记本	说明
扩充了天气数据的出租车车程数据 - Pandas	加载纽约绿色出租车数据（1 个月内），并在 Pandas 数据帧中使用天气数据扩充它。此示例重写方法 `get_pandas_limit`，并平衡数据加载性能与数据量。
扩充了天气数据的出租车车程数据 - Spark	加载纽约绿色出租车数据，并在 Spark 数据帧中使用天气数据扩充它。