Navigáció kihagyása

US Population by ZIP Code

US Census Population Decennial Zip ZCTA5

Az amerikai lakosság irányítószám szerinti eloszlása nem és faji hovatartozás alapján a 2010-es tízévenkénti népszámlálás adatai szerint.

Az adatkészlet forrása az Egyesült Államok Népszámlálási Hivatalának tízévenkénti népszámlálásához tartozó API-jai. Az adatkészlet használatával kapcsolatos feltételekért tekintse meg a használati feltételeket és a szabályzatokat és közleményeket.

Mennyiség és megőrzés

Az adatkészlet Parketta formátumban van tárolva, és 2010-es adatokat tartalmaz.

Tárolási hely

Az adatkészlet tárolási helye a Kelet-USA Azure-régió. Az affinitás érdekében a Kelet-USA régión belüli számítási erőforrások lefoglalását javasoljuk.

Kapcsolódó adatkészletek

Értesítések

A MICROSOFT JELEN ÁLLAPOTUKBAN SZOLGÁLTATJA AZ AZURE NYÍLT ADATKÉSZLETEIT. A MICROSOFT NEM VÁLLAL SEMMINEMŰ KIFEJEZETT VAGY HALLGATÓLAGOS JÓTÁLLÁST AZ ADATKÉSZLETEK HASZNÁLATÁRA VONATKOZÓAN. A HELYI TÖRVÉNYEK ÁLTAL ENGEDETT MÉRTÉKBEN A MICROSOFT ELHÁRÍT MINDEN FELELŐSSÉGET AZ ADATKÉSZLETEK HASZNÁLATÁBÓL ADÓDÓ ESETLEGES KÁROKÉRT VAGY VESZTESÉGEKÉRT, BELEÉRTVE A KÖZVETLEN, KÖVETKEZMÉNYES, KÜLÖNLEGES, KÖZVETETT, VÉLETLEN VAGY BÜNTETÉSBŐL EREDŐ KÁROKAT.

Az adatkészletet a Microsoft forrásadataihoz tartozó eredeti feltételek szerint szolgáltatjuk. A készlet tartalmazhat Microsofttól származó adatokat.

Access

Available inWhen to use
Azure Notebooks

Quickly explore the dataset with Jupyter notebooks hosted on Azure or your local machine.

Azure Databricks

Use this when you need the scale of an Azure managed Spark cluster to process the dataset.

Azure Synapse

Use this when you need the scale of an Azure managed Spark cluster to process the dataset.

Preview

decennialTime zipCode population race sex minAge maxAge year
2010 77477 265 WHITE ALONE Female 15 17 2010
2010 77477 107 SOME OTHER RACE ALONE Female 15 17 2010
2010 77477 12 SOME OTHER RACE ALONE Female 65 66 2010
2010 77477 101 ASIAN ALONE Female 60 61 2010
2010 77477 221 ASIAN ALONE Male 10 14 2010
2010 77478 256 WHITE ALONE Female 15 17 2010
2010 77478 17 SOME OTHER RACE ALONE Female 15 17 2010
2010 77478 3 SOME OTHER RACE ALONE Female 65 66 2010
2010 77478 129 ASIAN ALONE Female 60 61 2010
2010 77478 296 ASIAN ALONE Male 10 14 2010
Name Data type Unique Values (sample) Description
decennialTime string 1 2010

A tízévenkénti népszámlálás ideje, például 2010. vagy 2000.

maxAge int 23 20
34

A kortartomány maximuma. Ha az érték null, akkor minden életkorra vonatkozik, vagy a kortartománynak nincs felső határa, például > 85.

minAge int 23 5
65

A kortartomány minimuma. Ha az érték null, akkor minden életkorra vonatkozik.

population int 29,274 1
2

A szegmens lakossága.

race string 8 ASIAN ALONE
SOME OTHER RACE ALONE

Faji hovatartozás kategória a népszámlálási adatok között. Ha az érték null, akkor minden fajra vonatkozik.

sex string 3 Male
Female

Férfi vagy nő. Ha az érték null, akkor mindkét nemre vonatkozik.

year int 1 2010

A tízévenkénti idő éve (egész szám).

zipCode string 33,120 32034
31645

5 számjegyű irányítószám-alapú terület-kimutatás (ZCTA5).

Select your preferred service:

Azure Notebooks

Azure Databricks

Azure Synapse

Azure Notebooks

Package: Language: Python Python
In [1]:
# This is a package in preview.
from azureml.opendatasets import UsPopulationZip

population = UsPopulationZip()
population_df = population.to_pandas_dataframe()
ActivityStarted, to_pandas_dataframe
ActivityStarted, to_pandas_dataframe_in_worker
Looking for parquet files...
Reading them into Pandas dataframe...
Reading release/us_population_zip/year=2010/part-00178-tid-5434563040420806442-84b5e4ab-8ab1-4e28-beb1-81caf32ca312-1919656.c000.snappy.parquet under container censusdatacontainer
Done.
ActivityCompleted: Activity=to_pandas_dataframe_in_worker, HowEnded=Success, Duration=34526.07 [ms]
ActivityCompleted: Activity=to_pandas_dataframe, HowEnded=Success, Duration=34538.26 [ms]
In [2]:
population_df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19077120 entries, 0 to 19077119
Data columns (total 7 columns):
decennialTime    object
zipCode          object
population       int32
race             object
sex              object
minAge           float64
maxAge           float64
dtypes: float64(2), int32(1), object(4)
memory usage: 946.1+ MB
In [1]:
# Pip install packages
import os, sys

!{sys.executable} -m pip install azure-storage-blob
!{sys.executable} -m pip install pyarrow
!{sys.executable} -m pip install pandas
In [2]:
# Azure storage access info
azure_storage_account_name = "azureopendatastorage"
azure_storage_sas_token = r""
container_name = "censusdatacontainer"
folder_name = "release/us_population_zip/"
In [3]:
from azure.storage.blob import BlockBlobServicefrom azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient

if azure_storage_account_name is None or azure_storage_sas_token is None:
    raise Exception(
        "Provide your specific name and key for your Azure Storage account--see the Prerequisites section earlier.")

print('Looking for the first parquet under the folder ' +
      folder_name + ' in container "' + container_name + '"...')
container_url = f"https://{azure_storage_account_name}.blob.core.windows.net/"
blob_service_client = BlobServiceClient(
    container_url, azure_storage_sas_token if azure_storage_sas_token else None)

container_client = blob_service_client.get_container_client(container_name)
blobs = container_client.list_blobs(folder_name)
sorted_blobs = sorted(list(blobs), key=lambda e: e.name, reverse=True)
targetBlobName = ''
for blob in sorted_blobs:
    if blob.name.startswith(folder_name) and blob.name.endswith('.parquet'):
        targetBlobName = blob.name
        break

print('Target blob to download: ' + targetBlobName)
_, filename = os.path.split(targetBlobName)
blob_client = container_client.get_blob_client(targetBlobName)
with open(filename, 'wb') as local_file:
    blob_client.download_blob().download_to_stream(local_file)
In [4]:
# Read the parquet file into Pandas data frame
import pandas as pd

print('Reading the parquet file into Pandas data frame')
df = pd.read_parquet(filename)
In [5]:
# you can add your filter at below
print('Loaded as a Pandas data frame: ')
df
In [6]:
 

Azure Databricks

Package: Language: Python Python
In [1]:
# This is a package in preview.
from azureml.opendatasets import UsPopulationZip

population = UsPopulationZip()
population_df = population.to_spark_dataframe()
ActivityStarted, to_spark_dataframe ActivityStarted, to_spark_dataframe_in_worker ActivityCompleted: Activity=to_spark_dataframe_in_worker, HowEnded=Success, Duration=4108.82 [ms] ActivityCompleted: Activity=to_spark_dataframe, HowEnded=Success, Duration=4111.16 [ms]
In [2]:
display(population_df.limit(5))
decennialTimezipCodepopulationracesexminAgemaxAgeyear
201077477265WHITE ALONEFemale15172010
201077477107SOME OTHER RACE ALONEFemale15172010
20107747712SOME OTHER RACE ALONEFemale65662010
201077477101ASIAN ALONEFemale60612010
201077477221ASIAN ALONEMale10142010
In [1]:
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "censusdatacontainer"
blob_relative_path = "release/us_population_zip/"
blob_sas_token = r""
In [2]:
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)
In [3]:
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
In [4]:
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))

Azure Synapse

Package: Language: Python Python
In [41]:
# This is a package in preview.
from azureml.opendatasets import UsPopulationZip

population = UsPopulationZip()
population_df = population.to_spark_dataframe()
In [42]:
# Display top 5 rows
display(population_df.limit(5))
Out[42]:
In [1]:
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "censusdatacontainer"
blob_relative_path = "release/us_population_zip/"
blob_sas_token = r""
In [2]:
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)
In [3]:
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
In [4]:
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))