탐색 건너뛰기

Public Holidays

Public Holidays

전 세계 공휴일 데이터는 PyPI 휴일 패키지 및 Wikipedia에서 가져왔으며 1970년부터 2099까지 38개 국가 또는 지역을 포함합니다.

각 행은 특정 날짜, 국가 또는 지역 및 대부분의 사람이 유급 휴가를 사용하는지 여부에 대한 휴일 정보를 나타냅니다.

볼륨 및 보존

이 데이터 세트는 Parquet 형식으로 저장됩니다. 1970년 1월 1일부터 2099년 1월 1일까지의 휴일 정보가 포함된 스냅샷입니다. 데이터 크기는 약 500KB입니다.

스토리지 위치

이 데이터 세트는 미국 동부 Azure 지역에 저장됩니다. 선호도를 위해 미국 동부에 컴퓨팅 리소스를 할당하는 것이 좋습니다.

추가 정보

이 데이터 세트는 Wikipedia(WikiMedia Foundation Inc) 및 PyPI 휴일 패키지를 기반으로 한 데이터를 결합합니다.

결합된 데이터 세트는 Creative Commons Attribution-ShareAlike 3.0 Unported License에 따라 제공됩니다.

데이터 원본에 대한 질문이 있는 경우 으로 문의해 주세요.

고지 사항

Microsoft는 Azure Open Datasets를 “있는 그대로” 제공합니다. Microsoft는 귀하의 데이터 세트 사용과 관련하여 어떠한 명시적이거나 묵시적인 보증, 보장 또는 조건을 제공하지 않습니다. 귀하가 거주하는 지역의 법규가 허용하는 범위 내에서 Microsoft는 귀하의 데이터 세트 사용으로 인해 발생하는 일체의 직접적, 결과적, 특별, 간접적, 부수적 또는 징벌적 손해 또는 손실을 비롯한 모든 손해 또는 손실에 대한 모든 책임을 부인합니다.

이 데이터 세트는 Microsoft가 원본 데이터를 받은 원래 사용 약관에 따라 제공됩니다. 데이터 세트에는 Microsoft가 제공한 데이터가 포함될 수 있습니다.

Access

Available inWhen to use
Azure Notebooks

Quickly explore the dataset with Jupyter notebooks hosted on Azure or your local machine.

Azure Databricks

Use this when you need the scale of an Azure managed Spark cluster to process the dataset.

Azure Synapse

Use this when you need the scale of an Azure managed Spark cluster to process the dataset.

Preview

countryOrRegion holidayName normalizeHolidayName countryRegionCode date
Norway Søndag Søndag NO 12/28/2098 12:00:00 AM
Sweden Söndag Söndag SE 12/28/2098 12:00:00 AM
Australia Boxing Day Boxing Day AU 12/26/2098 12:00:00 AM
Hungary Karácsony másnapja Karácsony másnapja HU 12/26/2098 12:00:00 AM
Austria Stefanitag Stefanitag AT 12/26/2098 12:00:00 AM
Canada Boxing Day Boxing Day CA 12/26/2098 12:00:00 AM
Croatia Sveti Stjepan Sveti Stjepan HR 12/26/2098 12:00:00 AM
Czech 2. svátek vánoční 2. svátek vánoční CZ 12/26/2098 12:00:00 AM
Denmark Anden juledag Anden juledag DK 12/26/2098 12:00:00 AM
England Boxing Day Boxing Day null 12/26/2098 12:00:00 AM
Name Data type Unique Values (sample) Description
countryOrRegion string 38 Sweden
Norway

국가 또는 지역 전체 이름입니다.

countryRegionCode string 35 SE
NO

여기에 있는 형식을 따르는 국가 또는 지역 코드입니다.

date timestamp 20,665 2025-01-01 00:00:00
2093-12-25 00:00:00

휴일 날짜입니다.

holidayName string 483 Søndag
Söndag

휴일의 전체 이름입니다.

isPaidTimeOff boolean 3 True

대부분의 사람이 이 날짜에 유급 휴가를 받았는지를 나타냅니다(현재는 미국, 영국 및 인도에만 사용 가능). NULL인 경우 알 수 없음을 의미합니다.

normalizeHolidayName string 438 Søndag
Söndag

휴일의 정규화된 이름입니다.

Select your preferred service:

Azure Notebooks

Azure Databricks

Azure Synapse

Azure Notebooks

Package: Language: Python Python
In [1]:
# This is a package in preview.
from azureml.opendatasets import PublicHolidays

from datetime import datetime
from dateutil import parser
from dateutil.relativedelta import relativedelta


end_date = datetime.today()
start_date = datetime.today() - relativedelta(months=1)
hol = PublicHolidays(start_date=start_date, end_date=end_date)
hol_df = hol.to_pandas_dataframe()
ActivityStarted, to_pandas_dataframe ActivityStarted, to_pandas_dataframe_in_worker Looking for parquet files... Reading them into Pandas dataframe... Reading Processed/part-00000-tid-8575944798531137721-7b2fbd47-2ae5-45fd-b8b5-daa663d33177-649-c000.snappy.parquet under container holidaydatacontainer Done. ActivityCompleted: Activity=to_pandas_dataframe_in_worker, HowEnded=Success, Duration=955.3 [ms] ActivityCompleted: Activity=to_pandas_dataframe, HowEnded=Success, Duration=958.23 [ms]
In [2]:
hol_df.info()
<class 'pandas.core.frame.DataFrame'> Int64Index: 34 entries, 25706 to 25739 Data columns (total 6 columns): countryOrRegion 34 non-null object holidayName 34 non-null object normalizeHolidayName 34 non-null object isPaidTimeOff 1 non-null object countryRegionCode 34 non-null object date 34 non-null datetime64[ns] dtypes: datetime64[ns](1), object(5) memory usage: 1.9+ KB
In [1]:
# Pip install packages
import os, sys

!{sys.executable} -m pip install azure-storage-blob
!{sys.executable} -m pip install pyarrow
!{sys.executable} -m pip install pandas
In [2]:
# Azure storage access info
azure_storage_account_name = "azureopendatastorage"
azure_storage_sas_token = r""
container_name = "holidaydatacontainer"
folder_name = "Processed"
In [3]:
from azure.storage.blob import BlockBlobServicefrom azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient

if azure_storage_account_name is None or azure_storage_sas_token is None:
    raise Exception(
        "Provide your specific name and key for your Azure Storage account--see the Prerequisites section earlier.")

print('Looking for the first parquet under the folder ' +
      folder_name + ' in container "' + container_name + '"...')
container_url = f"https://{azure_storage_account_name}.blob.core.windows.net/"
blob_service_client = BlobServiceClient(
    container_url, azure_storage_sas_token if azure_storage_sas_token else None)

container_client = blob_service_client.get_container_client(container_name)
blobs = container_client.list_blobs(folder_name)
sorted_blobs = sorted(list(blobs), key=lambda e: e.name, reverse=True)
targetBlobName = ''
for blob in sorted_blobs:
    if blob.name.startswith(folder_name) and blob.name.endswith('.parquet'):
        targetBlobName = blob.name
        break

print('Target blob to download: ' + targetBlobName)
_, filename = os.path.split(targetBlobName)
blob_client = container_client.get_blob_client(targetBlobName)
with open(filename, 'wb') as local_file:
    blob_client.download_blob().download_to_stream(local_file)
In [4]:
# Read the parquet file into Pandas data frame
import pandas as pd

print('Reading the parquet file into Pandas data frame')
df = pd.read_parquet(filename)
In [5]:
# you can add your filter at below
print('Loaded as a Pandas data frame: ')
df
In [6]:
 

Azure Databricks

Package: Language: Python Python
In [1]:
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import PublicHolidays

from datetime import datetime
from dateutil import parser
from dateutil.relativedelta import relativedelta


end_date = datetime.today()
start_date = datetime.today() - relativedelta(months=1)
hol = PublicHolidays(start_date=start_date, end_date=end_date)
hol_df = hol.to_spark_dataframe()
ActivityStarted, to_spark_dataframe ActivityStarted, to_spark_dataframe_in_worker ActivityCompleted: Activity=to_spark_dataframe_in_worker, HowEnded=Success, Duration=2221.62 [ms] ActivityCompleted: Activity=to_spark_dataframe, HowEnded=Success, Duration=2223.36 [ms]
In [2]:
display(hol_df.limit(5))
countryOrRegionholidayNamenormalizeHolidayNameisPaidTimeOffcountryRegionCodedate
NorwaySøndagSøndagnullNO2019-06-16T00:00:00.000+0000
South AfricaYouth DayYouth DaynullZA2019-06-16T00:00:00.000+0000
SwedenSöndagSöndagnullSE2019-06-16T00:00:00.000+0000
UkraineТрійцяТрійцяnullUA2019-06-16T00:00:00.000+0000
ArgentinaDía Pase a la Inmortalidad del General Martín Miguel de Güemes [Day Pass to the Immortality of General Martín Miguel de Güemes]Día Pase a la Inmortalidad del General Martín Miguel de Güemes [Day Pass to the Immortality of General Martín Miguel de Güemes]nullAR2019-06-17T00:00:00.000+0000
In [1]:
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "holidaydatacontainer"
blob_relative_path = "Processed"
blob_sas_token = r""
In [2]:
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)
In [3]:
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
In [4]:
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))

Azure Synapse

Package: Language: Python Python
In [33]:
# This is a package in preview.
from azureml.opendatasets import PublicHolidays

from datetime import datetime
from dateutil import parser
from dateutil.relativedelta import relativedelta


end_date = datetime.today()
start_date = datetime.today() - relativedelta(months=1)
hol = PublicHolidays(start_date=start_date, end_date=end_date)
hol_df = hol.to_spark_dataframe()
In [34]:
# Display top 5 rows
display(hol_df.limit(5))
Out[34]:
In [1]:
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "holidaydatacontainer"
blob_relative_path = "Processed"
blob_sas_token = r""
In [2]:
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)
In [3]:
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
In [4]:
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))