Ignorar navegação

NOAA Global Forecast System (GFS)

Weather GFS NOAA

Dados de previsão meteorológica por hora dos EUA em 15 dias (exemplo, temperatura, precipitação, vento) produzidos pelo GFS (Sistema Global de Previsão) da NOAA (Administração Oceânica e Atmosférica Nacional).

O GFS (Sistema de Previsão Global) é um modelo de previsão meteorológica criado pelo NCEP (National Centers for Environmental Prediction). Dezenas de variáveis de solo e atmosfera ficam disponíveis por meio deste conjunto de dados, de temperaturas, ventos e precipitação a umidade do solo e concentração de ozônio atmosférico. Todo o planeta é coberto pelo GFS a uma resolução horizontal base de 28 quilômetros entre pontos da grade, que é usada pelos analistas operacionais que preveem a meteorologia até 16 dias no futuro. A resolução horizontal cai para 70 quilômetros entre os pontos da grade para previsões entre uma e duas semanas. Esse conjunto de dados é especificamente originado do GFS4.

Volume e retenção

Este conjunto de dados está armazenado no formato Parquet. É atualizado diariamente com os dados de previsão de 15 dias no futuro. Há cerca de 9 bilhões de linhas (200 GB) no total desde 2019.

Este conjunto de dados contém registros históricos acumulados desde dezembro de 2018 até o presente. Você pode usar as configurações de parâmetro no nosso SDK para buscar dados em um intervalo de tempo específico.

Local de armazenamento

Este conjunto de dados está armazenado na região Leste dos EUA do Azure. É recomendável alocar recursos de computação no Leste dos EUA para afinidade.

Informações adicionais

Este conjunto de dados é originado do Sistema de Previsão Global da NOAA. Mais informações sobre este conjunto de dados podem ser encontradas aqui e aqui. Envie um email para em caso de dúvidas sobre a fonte de dados.

Avisos

A MICROSOFT FORNECE O AZURE OPEN DATASETS NO ESTADO EM QUE SE ENCONTRA. A MICROSOFT NÃO OFERECE GARANTIAS OU COBERTURAS, EXPRESSAS OU IMPLÍCITAS, EM RELAÇÃO AO USO DOS CONJUNTOS DE DADOS. ATÉ O LIMITE PERMITIDO PELA LEGISLAÇÃO LOCAL, A MICROSOFT SE EXIME DE TODA A RESPONSABILIDADE POR DANOS OU PERDAS, INCLUSIVE DIRETOS, CONSEQUENTES, ESPECIAIS, INDIRETOS, ACIDENTAIS OU PUNITIVOS, RESULTANTES DO USO DOS CONJUNTOS DE DADOS.

Esse conjunto de dados é fornecido de acordo com os termos originais com que a Microsoft recebeu os dados de origem. O conjunto de dados pode incluir dados originados da Microsoft.

Access

Available inWhen to use
Azure Notebooks

Quickly explore the dataset with Jupyter notebooks hosted on Azure or your local machine.

Azure Databricks

Use this when you need the scale of an Azure managed Spark cluster to process the dataset.

Azure Synapse

Use this when you need the scale of an Azure managed Spark cluster to process the dataset.

Preview

currentDatetime forecastHour latitude longitude precipitableWaterEntireAtmosphere seaLvlPressure temperature windSpeedGustSurface totalCloudCoverConvectiveCloud year month day
1/12/2021 6:00:00 PM 192 0 180 25.6544 100749 299.478 9.4395 0 2021 1 12
1/12/2021 6:00:00 PM 192 0 -175.5 23.5544 100809 299.578 8.9395 0 2021 1 12
1/12/2021 6:00:00 PM 192 0 -179.5 25.6544 100768 299.478 8.9395 0 2021 1 12
1/12/2021 6:00:00 PM 192 0 -179 26.0544 100777 299.578 8.8395 0 2021 1 12
1/12/2021 6:00:00 PM 192 0 -178.5 25.3544 100777 299.678 9.0395 0 2021 1 12
1/12/2021 6:00:00 PM 192 0 -178 24.7544 100782 299.578 9.0395 0 2021 1 12
1/12/2021 6:00:00 PM 192 0 -177.5 24.0544 100782 299.578 8.9395 0 2021 1 12
1/12/2021 6:00:00 PM 192 0 -177 23.4544 100784 299.578 8.8395 0 2021 1 12
1/12/2021 6:00:00 PM 192 0 -176.5 23.4544 100792 299.578 8.7395 0 2021 1 12
1/12/2021 6:00:00 PM 192 0 -176 23.3544 100797 299.578 8.9395 0 2021 1 12
Name Data type Unique Values (sample) Description
currentDatetime timestamp 2,743 2018-12-06 12:00:00
2018-12-09 12:00:00

O runtime do ciclo do modelo de previsão.

day int 31 1
5

Dia do currentDatetime.

forecastHour int 129 336
102

Hora desde currentDatetime, hora da previsão ou da observação.

latitude double 361 34.0
75.5

Latitude, degrees_north.

longitude double 1,079 56.0
2.5

Longitude, degrees_east.

month int 12 12
11

Mês do currentDatetime.

precipitableWaterEntireAtmosphere double 5,451,888 0.5
0.2

Água precipitável em toda a camada atmosférica. Unidades: kg.m-2

seaLvlPressure double 8,567,844 101096.0
101120.0

Pressão no solo ou em uma superfície de água. Unidades: Pa

snowDepthSurface double 1,210 nan
1.0

Profundidade da neve no solo ou em uma superfície de água. Unidades: m

temperature double 5,840,726 273.0
273.1

Temperatura no solo ou em uma superfície de água. Unidades: mil

totalCloudCoverConvectiveCloud double 82 1.0
2.0

Cobertura total de nuvem em uma camada de nuvem convectiva. Unidades: %

windSpeedGustSurface double 19,149,014 4.5
5.0

Velocidade do vento (rajada) no solo ou na superfície da água. Unidades: m/s

year int 5 2019
2020

Ano do currentDatetime.

Select your preferred service:

Azure Notebooks

Azure Databricks

Azure Synapse

Azure Notebooks

Package: Language: Python Python
In [1]:
# This is a package in preview.
from azureml.opendatasets import NoaaGfsWeather

from dateutil import parser


start_date = parser.parse('2018-12-20')
end_date = parser.parse('2018-12-21')
gfs = NoaaGfsWeather(start_date, end_date)
gfs_df = gfs.to_pandas_dataframe()
ActivityStarted, to_pandas_dataframe Due to size, we only allow getting 1-day data into pandas dataframe! We are taking the latest day: /year=2018/month=12/day=21/ Target paths: ['/year=2018/month=12/day=21/'] Looking for parquet files... Reading them into Pandas dataframe... Reading GFSWeather/GFSProcessed/year=2018/month=12/day=21/part-00000-tid-570650763889113128-ff3109d0-23cf-4024-a096-63964952b0c7-4397-c000.snappy.parquet under container gfsweatherdatacontainer Reading GFSWeather/GFSProcessed/year=2018/month=12/day=21/part-00001-tid-570650763889113128-ff3109d0-23cf-4024-a096-63964952b0c7-4398-c000.snappy.parquet under container gfsweatherdatacontainer ... Reading GFSWeather/GFSProcessed/year=2018/month=12/day=21/part-00199-tid-570650763889113128-ff3109d0-23cf-4024-a096-63964952b0c7-4596-c000.snappy.parquet under container gfsweatherdatacontainer Done. ActivityCompleted: Activity=to_pandas_dataframe, HowEnded=Success, Duration=91914.45 [ms]
In [2]:
gfs_df.info()
<class 'pandas.core.frame.DataFrame'> Int64Index: 24172560 entries, 0 to 120634 Data columns (total 10 columns): currentDatetime datetime64[ns] forecastHour int32 latitude float64 longitude float64 precipitableWaterEntireAtmosphere float64 seaLvlPressure float64 snowDepthSurface float64 temperature float64 windSpeedGustSurface float64 totalCloudCoverConvectiveCloud float64 dtypes: datetime64[ns](1), float64(8), int32(1) memory usage: 1.9 GB
In [1]:
# Pip install packages
import os, sys

!{sys.executable} -m pip install azure-storage-blob
!{sys.executable} -m pip install pyarrow
!{sys.executable} -m pip install pandas
In [2]:
# Azure storage access info
azure_storage_account_name = "azureopendatastorage"
azure_storage_sas_token = r""
container_name = "gfsweatherdatacontainer"
folder_name = "GFSWeather/GFSProcessed"
In [3]:
from azure.storage.blob import BlockBlobServicefrom azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient

if azure_storage_account_name is None or azure_storage_sas_token is None:
    raise Exception(
        "Provide your specific name and key for your Azure Storage account--see the Prerequisites section earlier.")

print('Looking for the first parquet under the folder ' +
      folder_name + ' in container "' + container_name + '"...')
container_url = f"https://{azure_storage_account_name}.blob.core.windows.net/"
blob_service_client = BlobServiceClient(
    container_url, azure_storage_sas_token if azure_storage_sas_token else None)

container_client = blob_service_client.get_container_client(container_name)
blobs = container_client.list_blobs(folder_name)
sorted_blobs = sorted(list(blobs), key=lambda e: e.name, reverse=True)
targetBlobName = ''
for blob in sorted_blobs:
    if blob.name.startswith(folder_name) and blob.name.endswith('.parquet'):
        targetBlobName = blob.name
        break

print('Target blob to download: ' + targetBlobName)
_, filename = os.path.split(targetBlobName)
blob_client = container_client.get_blob_client(targetBlobName)
with open(filename, 'wb') as local_file:
    blob_client.download_blob().download_to_stream(local_file)
In [4]:
# Read the parquet file into Pandas data frame
import pandas as pd

print('Reading the parquet file into Pandas data frame')
df = pd.read_parquet(filename)
In [5]:
# you can add your filter at below
print('Loaded as a Pandas data frame: ')
df
In [6]:
 

Azure Databricks

Package: Language: Python Python
In [1]:
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NoaaGfsWeather

from dateutil import parser


start_date = parser.parse('2018-12-20')
end_date = parser.parse('2018-12-21')
gfs = NoaaGfsWeather(start_date, end_date)
gfs_df = gfs.to_spark_dataframe()
ActivityStarted, to_spark_dataframe ActivityCompleted: Activity=to_spark_dataframe, HowEnded=Success, Duration=92636.3 [ms]
In [2]:
display(gfs_df.limit(5))
currentDatetimeforecastHourlatitudelongitudeprecipitableWaterEntireAtmosphereseaLvlPressuresnowDepthSurfacetemperaturewindSpeedGustSurfacetotalCloudCoverConvectiveCloudyearmonthday
2018-12-20T00:00:00.000+00000-90.079.03.54831433296203671160.97656251.0099999904632568260.606781005859412.820813179016113null20181220
2018-12-20T00:00:00.000+00000-90.0268.03.54831433296203671160.97656251.0099999904632568260.606781005859412.820813179016113null20181220
2018-12-20T00:00:00.000+00000-89.536.53.448314189910888770757.77343751.0099999904632568258.606781005859412.620813369750977null20181220
2018-12-20T00:00:00.000+00000-89.543.03.348314285278320370597.77343751.0099999904632568258.306793212890612.720812797546387null20181220
2018-12-20T00:00:00.000+00000-89.5144.03.24831438064575269701.77343751.0099999904632568259.5067749023437512.620813369750977null20181220
In [1]:
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "gfsweatherdatacontainer"
blob_relative_path = "GFSWeather/GFSProcessed"
blob_sas_token = r""
In [2]:
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)
In [3]:
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
In [4]:
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))

Azure Synapse

Package: Language: Python Python
In [23]:
# This is a package in preview.
from azureml.opendatasets import NoaaGfsWeather

from dateutil import parser


start_date = parser.parse('2018-12-20')
end_date = parser.parse('2018-12-21')
gfs = NoaaGfsWeather(start_date, end_date)
gfs_df = gfs.to_spark_dataframe()
In [24]:
# Display top 5 rows
display(gfs_df.limit(5))
Out[24]:
In [1]:
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "gfsweatherdatacontainer"
blob_relative_path = "GFSWeather/GFSProcessed"
blob_sas_token = r""
In [2]:
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)
In [3]:
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
In [4]:
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))