15-dagers timevarsel for været i USA (eksempel: temperatur, nedbør, vind) produsert av Global Forecast System (GFS) fra National Oceanic and Atmospheric Administration (NOAA).
Global Forecast System (GFS) er en værmeldingsmodell produsert av National Centers for Environmental Prediction (NCEP). En mengde atmosfæriske og landjordvariabler er tilgjengelige gjennom dette datasettet, fra temperaturer, vind og nedbør til jordfuktighet og ozonkonsentrasjon i atmosfæren. Hele jorden er dekket av GPS med en horisontal oppløsning på 28 kilometer mellom rutenettpunkter, som brukes av prognosemakerne som spår været opp til 16 dager i fremtiden. Horisontal oppløsning faller til 70 kilometer mellom rutenettpunkt for prognoser mellom en uke og to uker. Dette datasettet er spesielt hentet fra GFS4.
Volum og dataoppbevaring
Dette datasettet er lagret i Parquet-format. Det oppdateres daglig med 15-dagers, foroverskuende prognosedata. Det er ca. 9B rader (200 GB) totalt fra og med 2019.
Dette datasettet inneholder historiske poster akkumulert fra desember 2018 til nå. Du kan bruke parameterinnstillinger i vårt SDK til å hente data innenfor et spesifikt tidsintervall.
Lagerplassering
Dette datasettet er lagret i Azure-området i øst-USA. Tildeling av databehandlingsressurser i øst-USA er anbefalt for affinitet.
Mer informasjon
Dette datasettet er hentet fra NOAA globalt prognosesystem. Du finner mer informasjon om datasettet her og her. Send en e-post ncei.orders@noaa.gov hvis du har noen spørsmål om datakilden.
Merknader
MICROSOFT LEVERER AZURE OPEN DATASETS PÅ EN “SOM DE ER”-BASIS. MICROSOFT GIR INGEN GARANTIER, UTTRYKTE ELLER IMPLISERTE, ELLER BETINGELSER MED HENSYN TIL DIN BRUK AV DATASETTENE. I DEN GRAD LOKAL LOV TILLATER DET, FRASKRIVER MICROSOFT SEG ALT ANSVAR FOR EVENTUELLE SKADER ELLER TAP, INKLUDERT DIREKTE SKADE, FØLGESKADE, DOKUMENTERT ERSTATNINGSKRAV, INDIREKTE SKADE ELLER ERSTATNING UTOVER DET SOM VILLE VÆRE NORMALT, SOM FØLGE AV DIN BRUK AV DATASETTENE.
Dette datasettet leveres i henhold til de originale vilkårene Microsoft mottok kildedata. Datasettet kan inkludere data hentet fra Microsoft.
Access
Available in | When to use |
---|---|
Azure Notebooks | Quickly explore the dataset with Jupyter notebooks hosted on Azure or your local machine. |
Azure Databricks | Use this when you need the scale of an Azure managed Spark cluster to process the dataset. |
Azure Synapse | Use this when you need the scale of an Azure managed Spark cluster to process the dataset. |
Preview
currentDatetime | forecastHour | latitude | longitude | precipitableWaterEntireAtmosphere | seaLvlPressure | snowDepthSurface | temperature | windSpeedGustSurface | year | month | day |
---|---|---|---|---|---|---|---|---|---|---|---|
2/17/2021 6:00:00 PM | 0 | -90 | 0 | 0.519596 | 68412.7 | 1 | 231.1 | 3.92391 | 2021 | 2 | 17 |
2/17/2021 6:00:00 PM | 0 | -90 | 4.5 | 0.519596 | 68412.7 | 1 | 231.1 | 3.92391 | 2021 | 2 | 17 |
2/17/2021 6:00:00 PM | 0 | -90 | 0.5 | 0.519596 | 68412.7 | 1 | 231.1 | 3.92391 | 2021 | 2 | 17 |
2/17/2021 6:00:00 PM | 0 | -90 | 1 | 0.519596 | 68412.7 | 1 | 231.1 | 3.92391 | 2021 | 2 | 17 |
2/17/2021 6:00:00 PM | 0 | -90 | 1.5 | 0.519596 | 68412.7 | 1 | 231.1 | 3.92391 | 2021 | 2 | 17 |
2/17/2021 6:00:00 PM | 0 | -90 | 2 | 0.519596 | 68412.7 | 1 | 231.1 | 3.92391 | 2021 | 2 | 17 |
2/17/2021 6:00:00 PM | 0 | -90 | 2.5 | 0.519596 | 68412.7 | 1 | 231.1 | 3.92391 | 2021 | 2 | 17 |
2/17/2021 6:00:00 PM | 0 | -90 | 3 | 0.519596 | 68412.7 | 1 | 231.1 | 3.92391 | 2021 | 2 | 17 |
2/17/2021 6:00:00 PM | 0 | -90 | 3.5 | 0.519596 | 68412.7 | 1 | 231.1 | 3.92391 | 2021 | 2 | 17 |
2/17/2021 6:00:00 PM | 0 | -90 | 4 | 0.519596 | 68412.7 | 1 | 231.1 | 3.92391 | 2021 | 2 | 17 |
Name | Data type | Unique | Values (sample) | Description |
---|---|---|---|---|
currentDatetime | timestamp | 2,863 | 2018-12-06 06:00:00 2018-12-09 12:00:00 |
Prognosemodellsyklusens kjøretid. |
day | int | 31 | 1 5 |
Dag for currentDatetime. |
forecastHour | int | 129 | 336 102 |
Time siden currentDatetime, prognose eller observasjonstid. |
latitude | double | 361 | 4.5 -12.5 |
Breddegrad, degrees_north. |
longitude | double | 1,079 | 99.0 36.5 |
Lengdegrad, degrees_east. |
month | int | 12 | 12 1 |
Måned for currentDatetime. |
precipitableWaterEntireAtmosphere | double | 5,520,555 | 0.5 1.0 |
Vanninnhold i hele atmosfærelaget. Enheter: kg.m-2 |
seaLvlPressure | double | 8,568,607 | 101104.0 101112.0 |
Trykk på bakke eller vannoverflate. Enheter: Pa |
snowDepthSurface | double | 1,245 | nan 1.0 |
Snødybde på bakke eller vannoverflate. Enheter: m |
temperature | double | 5,840,727 | 273.0 273.1 |
Temperatur på bakke eller vannoverflate. Enheter: K |
totalCloudCoverConvectiveCloud | double | 82 | 1.0 2.0 |
Total skydekning i konvektivt skylag. Enheter: % |
windSpeedGustSurface | double | 19,188,997 | 5.0 4.5 |
Vindhastighet (kast) bakke eller vannoverflate. Enhet: m/s |
year | int | 5 | 2019 2020 |
År for currentDatetime. |
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NoaaGfsWeather
from dateutil import parser
start_date = parser.parse('2018-12-20')
end_date = parser.parse('2018-12-21')
gfs = NoaaGfsWeather(start_date, end_date)
gfs_df = gfs.to_pandas_dataframe()
gfs_df.info()
# Pip install packages
import os, sys
!{sys.executable} -m pip install azure-storage-blob
!{sys.executable} -m pip install pyarrow
!{sys.executable} -m pip install pandas
# Azure storage access info
azure_storage_account_name = "azureopendatastorage"
azure_storage_sas_token = r""
container_name = "gfsweatherdatacontainer"
folder_name = "GFSWeather/GFSProcessed"
from azure.storage.blob import BlockBlobServicefrom azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient
if azure_storage_account_name is None or azure_storage_sas_token is None:
raise Exception(
"Provide your specific name and key for your Azure Storage account--see the Prerequisites section earlier.")
print('Looking for the first parquet under the folder ' +
folder_name + ' in container "' + container_name + '"...')
container_url = f"https://{azure_storage_account_name}.blob.core.windows.net/"
blob_service_client = BlobServiceClient(
container_url, azure_storage_sas_token if azure_storage_sas_token else None)
container_client = blob_service_client.get_container_client(container_name)
blobs = container_client.list_blobs(folder_name)
sorted_blobs = sorted(list(blobs), key=lambda e: e.name, reverse=True)
targetBlobName = ''
for blob in sorted_blobs:
if blob.name.startswith(folder_name) and blob.name.endswith('.parquet'):
targetBlobName = blob.name
break
print('Target blob to download: ' + targetBlobName)
_, filename = os.path.split(targetBlobName)
blob_client = container_client.get_blob_client(targetBlobName)
with open(filename, 'wb') as local_file:
blob_client.download_blob().download_to_stream(local_file)
# Read the parquet file into Pandas data frame
import pandas as pd
print('Reading the parquet file into Pandas data frame')
df = pd.read_parquet(filename)
# you can add your filter at below
print('Loaded as a Pandas data frame: ')
df
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NoaaGfsWeather
from dateutil import parser
start_date = parser.parse('2018-12-20')
end_date = parser.parse('2018-12-21')
gfs = NoaaGfsWeather(start_date, end_date)
gfs_df = gfs.to_spark_dataframe()
display(gfs_df.limit(5))
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "gfsweatherdatacontainer"
blob_relative_path = "GFSWeather/GFSProcessed"
blob_sas_token = r""
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
blob_sas_token)
print('Remote blob path: ' + wasbs_path)
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NoaaGfsWeather
from dateutil import parser
start_date = parser.parse('2018-12-20')
end_date = parser.parse('2018-12-21')
gfs = NoaaGfsWeather(start_date, end_date)
gfs_df = gfs.to_spark_dataframe()
# Display top 5 rows
display(gfs_df.limit(5))
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "gfsweatherdatacontainer"
blob_relative_path = "GFSWeather/GFSProcessed"
blob_sas_token = r""
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
blob_sas_token)
print('Remote blob path: ' + wasbs_path)
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))