Datasettet COVID Tracking Project inneholder de siste tallene for tester, bekreftede tilfeller, sykehusinnleggelser og pasientutfall fra alle amerikanske stater og territorier.
Se her for mer informasjon om dette datasettet.
Datasett:
Modifiserte versjoner av datasettet er tilgjengelige i CSV, JSON, JSON-linjer og Parquet.
https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.csv
https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.json
https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.jsonl
https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet
Alle modifiserte versjoner har underinndelingskodene ISO 3166 og lastetider lagt til, og bruker kolonnenavn i små bokstaver med understrekingstegn.
Rådata:
https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/latest/daily.json
Tidligere versjoner av modifiserte- og rådata:
https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/
https://pandemicdatalake.blob.core.windows.net/public/raw/covid-19/covid_tracking/
Datavolum
Alle datasett oppdateres daglig. Fra 13. mai 2020 inneholdt de 4 100 rader (CSV 574 kB, JSON 1,8 MB, JSONL 1,8 MB, Parquet 334 kB).
Datakilde
Disse dataene er opprinnelig publisert av COVID Tracking Project hos Atlantic. Rådata er innhentet fra COVID Tracking GitHub-repo ved bruk av filen States_daily_4p_et.csv her. For mer informasjon om dette datasettet, inkludert dens opprinnelse fra COVID Tracking Project-API, se her.
Datakvalitet
COVID Tracking Project klassifiserer datakvaliteten for hver stat og gir ytterligere informasjon om deres vurdering av kvaliteten på dataene her. Data i GitHub-repositorium kan ligge en time etter API-en. Bruk av API-en er nødvendig for å få tilgang til de nyeste dataene.
Lisens og bruksrettigheter. Tillegg
Denne informasjonen er lisensiert under vilkårene og betingelsene i Apache License 2.0 som beskrevet her.
All bruk av dataene må inneholde alle merknader om opphavsrett, patent, varemerke og tilskrivelse.
Kontakt
Hvis du har spørsmål eller tilbakemelding om dette eller andre datasett i COVID-19-datasjøen, kan du kontakte askcovid19dl@microsoft.com.
Merknader
MICROSOFT LEVERER AZURE OPEN DATASETS PÅ EN “SOM DE ER”-BASIS. MICROSOFT GIR INGEN GARANTIER, UTTRYKTE ELLER IMPLISERTE, ELLER BETINGELSER MED HENSYN TIL DIN BRUK AV DATASETTENE. I DEN GRAD LOKAL LOV TILLATER DET, FRASKRIVER MICROSOFT SEG ALT ANSVAR FOR EVENTUELLE SKADER ELLER TAP, INKLUDERT DIREKTE SKADE, FØLGESKADE, DOKUMENTERT ERSTATNINGSKRAV, INDIREKTE SKADE ELLER ERSTATNING UTOVER DET SOM VILLE VÆRE NORMALT, SOM FØLGE AV DIN BRUK AV DATASETTENE.
Dette datasettet leveres i henhold til de originale vilkårene Microsoft mottok kildedata. Datasettet kan inkludere data hentet fra Microsoft.
Access
Available in | When to use |
---|---|
Azure Notebooks | Quickly explore the dataset with Jupyter notebooks hosted on Azure or your local machine. |
Azure Databricks | Use this when you need the scale of an Azure managed Spark cluster to process the dataset. |
Azure Synapse | Use this when you need the scale of an Azure managed Spark cluster to process the dataset. |
Preview
date | state | positive | hospitalized_currently | hospitalized_cumulative | on_ventilator_currently | data_quality_grade | last_update_et | hash | date_checked | death | hospitalized | total | total_test_results | pos_neg | fips | death_increase | hospitalized_increase | negative_increase | positive_increase | total_test_results_increase | fips_code | iso_subdivision | load_time | iso_country | negative | in_icu_cumulative | on_ventilator_cumulative | recovered | in_icu_currently |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2021-02-24 | AK | 55736 | 46 | 1260 | 4 | null | 2/24/2021 3:59:00 AM | 67b3b6ca1627ea40d08871803b2659b08b55daae | 2/24/2021 3:59:00 AM | 290 | 1260 | 55736 | 1662156 | 55736 | 2 | 0 | 0 | 0 | 176 | 8731 | 2 | US-AK | 2/26/2021 12:07:50 AM | US | |||||
2021-02-24 | AL | 490220 | 773 | 45250 | null | 2/24/2021 11:00:00 AM | 676bdea053983e254017ca1a5c4545ebe6b40100 | 2/24/2021 11:00:00 AM | 9744 | 45250 | 2375371 | 2269033 | 2375371 | 1 | 84 | 0 | 2971 | 1247 | 3947 | 1 | US-AL | 2/26/2021 12:07:50 AM | US | 1885151 | 2641 | 1500 | 275245 | ||
2021-02-24 | AR | 317396 | 545 | 14649 | 99 | null | 2/24/2021 12:00:00 AM | 2db69acfbfe82aa932fd048848b370f4d670e601 | 2/24/2021 12:00:00 AM | 5387 | 14649 | 2685347 | 2618676 | 2685347 | 5 | 10 | 32 | 8380 | 803 | 8839 | 5 | US-AR | 2/26/2021 12:07:50 AM | US | 2367951 | 1509 | 307306 | 204 | |
2021-02-24 | AS | 0 | null | 12/1/2020 12:00:00 AM | f43db694c3c66828b057fcd5303d23ff2014fad3 | 12/1/2020 12:00:00 AM | 0 | 2140 | 2140 | 2140 | 60 | 0 | 0 | 0 | 0 | 0 | 60 | US-AS | 2/26/2021 12:07:50 AM | US | 2140 | ||||||||
2021-02-24 | AZ | 811968 | 1449 | 57156 | 253 | null | 2/24/2021 12:00:00 AM | 66eb7b9f8629ac10b33a2ddb54fadd311466dd44 | 2/24/2021 12:00:00 AM | 15693 | 57156 | 3772165 | 7512395 | 3772165 | 4 | 43 | 84 | 6987 | 1310 | 34072 | 4 | US-AZ | 2/26/2021 12:07:50 AM | US | 2960197 | 430 | |||
2021-02-24 | CA | 3455361 | 6764 | null | 2/24/2021 2:59:00 AM | 73cbf2d1ea6a9377fc80bad073db69cfc87adb38 | 2/24/2021 2:59:00 AM | 3455361 | 47652172 | 3455361 | 6 | 314 | 0 | 0 | 5303 | 138805 | 6 | US-CA | 2/26/2021 12:07:50 AM | US | 1842 | ||||||||
2021-02-24 | CO | 423558 | 427 | 23349 | null | 2/24/2021 1:59:00 AM | fed32c2407fd9bb049293894590d501160cdf06c | 2/24/2021 1:59:00 AM | 5917 | 23349 | 2573475 | 6080273 | 2573475 | 8 | 10 | 56 | 6888 | 1168 | 36690 | 8 | US-CO | 2/26/2021 12:07:50 AM | US | 2149917 | |||||
2021-02-24 | CT | 278184 | 495 | 12257 | null | 2/23/2021 11:59:00 PM | 4f5151c89fba8c04fff802fafb839ed51d90fde1 | 2/23/2021 11:59:00 PM | 7595 | 12257 | 278184 | 6227431 | 278184 | 9 | 23 | 0 | 0 | 1493 | 28724 | 9 | US-CT | 2/26/2021 12:07:50 AM | US | ||||||
2021-02-24 | DC | 39943 | 211 | 31 | null | 2/23/2021 12:00:00 AM | ffa9847c58964ef84776090f728ca4890320369b | 2/23/2021 12:00:00 AM | 1001 | 39943 | 1204605 | 39943 | 11 | 3 | 0 | 0 | 99 | 3000 | 11 | US-DC | 2/26/2021 12:07:50 AM | US | 28532 | 57 | |||||
2021-02-24 | DE | 85506 | 182 | null | 2/23/2021 6:00:00 PM | fc43ea23c4303a5eaaedc86de2f02d3ed7defd03 | 2/23/2021 6:00:00 PM | 1402 | 619410 | 1368734 | 619410 | 10 | 23 | 0 | 1231 | 278 | 5059 | 10 | US-DE | 2/26/2021 12:07:50 AM | US | 533904 | 27 |
Name | Data type | Unique | Values (sample) | Description |
---|---|---|---|---|
date | date | 409 | 2021-01-10 2020-12-14 |
Dato daglig totalt antall ble samlet inn. |
date_checked | string | 9,222 | 2020-12-01T00:00:00Z 2020-09-01T00:00:00Z |
Avskrevet |
death | smallint | 7,082 | 2 5 |
Totalt antall personer som har dødd som resultat av COVID-19 så langt. |
death_increase | smallint | 419 | 1 2 |
Avskrevet |
fips | smallint | 56 | 26 55 |
FIPS-kode for folketelling for delstaten. |
fips_code | string | 60 | 53 25 |
FIPS-kode for folketelling for delstaten. |
hash | string | 20,164 | a2e6b70aa4ad18fbb792510418b5462b6130687f d9642fd54080446d9ab3509df0eaacd5c516ea91 |
En hash for oppføringen |
hospitalized | int | 7,368 | 89995 4 |
Avskrevet |
hospitalized_cumulative | int | 7,368 | 89995 4 |
Totalt antall personer som har vært innlagt på sykehus for COVID-19 så langt, inkludert dem som siden har blitt friske eller dødd. |
hospitalized_currently | smallint | 3,848 | 8 13 |
Antall personer på sykehus for COVID-19 på denne dagen. |
hospitalized_increase | smallint | 612 | 1 2 |
Avskrevet |
in_icu_cumulative | smallint | 2,221 | 990 220 |
Totalt antall personer som har vært innlagt på intensivavdeling for COVID-19 så langt, inkludert dem som siden har blitt friske eller dødd. |
in_icu_currently | smallint | 1,583 | 2 8 |
Antall personer på intensivavdeling for COVID-19 på denne dagen. |
iso_country | string | 1 | US | ISO 3166 land eller områdekode |
iso_subdivision | string | 57 | US-UM US-WA |
ISO 3166-underinndelingskode |
last_update_et | timestamp | 9,222 | 2020-12-01 00:00:00 2020-09-01 00:00:00 |
Siste tidspunkt dagens data ble oppdatert |
load_time | timestamp | 1 | 2021-02-26 00:07:50.712000 | Dato og klokkeslett dataene ble lastet inn i Azure fra kilden |
negative | int | 13,110 | 305972 2140 |
Totalt antall personer som har testet negativt for COVID-19 så langt. |
negative_increase | int | 8,905 | 6 19 |
Avskrevet |
on_ventilator_cumulative | smallint | 657 | 411 412 |
Totalt antall personer som har brukt en respirator for COVID-19 så langt, inkludert dem som siden har blitt friske eller dødd. |
on_ventilator_currently | smallint | 833 | 4 10 |
Antall personer som har brukt en respirator for COVID-19 på denne dagen. |
pending | smallint | 925 | 2 17 |
Antall tester hvor resultatene ennå ikke er bestemt. |
pos_neg | int | 17,926 | 2140 2 |
Avskrevet |
positive | int | 16,293 | 2 1 |
Totalt antall personer som har testet positivt for COVID-19 så langt. |
positive_increase | smallint | 4,700 | 1 2 |
Avskrevet |
recovered | int | 8,010 | 29 19 |
Totalt antall personer som er friskmeldte fra COVID-19 så langt. |
state | string | 56 | MI PA |
Tobokstavskode for delstaten. |
total | int | 17,940 | 2140 2 |
Avskrevet |
total_test_results | int | 18,106 | 2140 3 |
Totalt antall testresultater gitt av staten |
total_test_results_increase | int | 13,019 | 1 2 |
Avskrevet |
Azure Notebooks
import pandas as pd
import numpy as np
%matplotlib inline
import matplotlib.pyplot as plt
df = pd.read_parquet("https://pandemicdatalake.blob.core.windows.net/public/curated/covid-19/covid_tracking/latest/covid_tracking.parquet ")
df.head(10)
df.dtypes
df.groupby('state').first().filter(['date','positive', 'death'])
df.groupby(df.state).agg({'state': 'count','positive_increase': 'sum','death_increase': 'sum'})
df_NY=df[df['state'] == 'NY']
df_NY.plot(kind='line',x='date',y="positive",grid=True)
df_NY.plot(kind='line',x='date',y="positive_increase",grid=True)
df_NY.plot(kind='line',x='date',y="death",grid=True)
df_NY.plot(kind='line',x='date',y="death_increase",grid=True)
df_US=df.groupby(df.date).agg({'positive': 'sum','positive_increase': 'sum','death':'sum','death_increase': 'sum'}).reset_index()
df_US.plot(kind='line',x='date',y="positive",grid=True)
df_US.plot(kind='line',x='date',y="positive_increase",grid=True)
df_US.plot(kind='line',x='date',y="death",grid=True)
df_US.plot(kind='line',x='date',y="death_increase",grid=True)
Azure Databricks
# Azure storage access info
blob_account_name = "pandemicdatalake"
blob_container_name = "public"
blob_relative_path = "curated/covid-19/covid_tracking/latest/covid_tracking.parquet"
blob_sas_token = r""
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
blob_sas_token)
print('Remote blob path: ' + wasbs_path)
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))
Azure Synapse
# Azure storage access info
blob_account_name = "pandemicdatalake"
blob_container_name = "public"
blob_relative_path = "curated/covid-19/covid_tracking/latest/covid_tracking.parquet"
blob_sas_token = r""
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
blob_sas_token)
print('Remote blob path: ' + wasbs_path)
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))