Hoppa över navigering

NYC Taxi & Limousine Commission - green taxi trip records

NYC TLC Taxi green

Den gröna taxins färdposter innehåller fält som visar datum och tid för upphämtning och avlämning, plats för upphämtning och avlämning, körsträcka, specificerade priser, tarifftyper, betalningssätt och förarrapporterade passagerarantal.

Volym och kvarhållning

Datamängden lagras i Parquet-format. Det finns cirka 80 miljoner rader (2 GB) sammanlagt 2018.

Datamängden innehåller historiska poster som ackumulerats från 2009 till 2018. Du kan använda parameterinställningar i vår SDK till att hämta data inom ett specifikt tidsintervall.

Lagringsplats

Datamängden lagras i Azure-regionen Östra USA. Vi rekommenderar att beräkningsresurser tilldelas i Östra USA av tillhörighetsskäl.

Ytterligare information

NYC Taxi and Limousine Commission (TLC):

Datan samlades in och överlämnades till NYC Taxi and Limousine Commission (TLC) av teknikleverantörer som är godkända av Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Färddatan skapades inte av TLC och TLC garanterar inte korrektheten i dessa data.

Ytterligare information om TLC:s färddata finns här och här.

Meddelanden

MICROSOFT TILLHANDAHÅLLER AZURE OPEN DATASETS I BEFINTLIGT SKICK. MICROSOFT UTFÄRDAR INTE NÅGRA GARANTIER ELLER VILLKOR, UTTRYCKLIGA ELLER UNDERFÖRSTÅDDA, AVSEENDE ANVÄNDNINGEN AV DATAMÄNGDERNA. I DEN UTSTRÄCKNING DET ÄR TILLÅTET ENLIGT NATIONELL LAGSTIFTNING, FRISKRIVER MICROSOFT SIG FRÅN ALLT ANSVAR BETRÄFFANDE SKADOR OCH FÖRLUSTER, INKLUSIVE DIREKTA SKADOR, FÖLJDSKADOR, SÄRSKILDA SKADOR, INDIREKTA SKADOR, ELLER OFÖRUTSEDDA SKADOR FRÅN ANVÄNDNINGEN AV DATAMÄNGDERNA.

Datamängden tillhandahålls enligt de ursprungliga villkor som gällde när Microsoft tog emot källdatan. Datamängden kan innehålla data från Microsoft.

Access

Available inWhen to use
Azure Notebooks

Quickly explore the dataset with Jupyter notebooks hosted on Azure or your local machine.

Azure Databricks

Use this when you need the scale of an Azure managed Spark cluster to process the dataset.

Azure Synapse

Use this when you need the scale of an Azure managed Spark cluster to process the dataset.

Preview

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 6/24/2081 5:40:37 PM 6/24/2081 6:42:47 PM 1 16.95 93 117 1 N 1 52 1 0.5 0.3 0 2.16 55.96 1 2081 6
2 11/28/2030 12:19:29 AM 11/28/2030 12:25:37 AM 1 1.08 42 247 1 N 2 6.5 0 0.5 0.3 0 0 7.3 1 2030 11
2 11/28/2030 12:14:50 AM 11/28/2030 12:14:54 AM 1 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 11/14/2020 11:38:07 AM 11/14/2020 11:42:22 AM 1 0.63 129 129 1 N 2 4.5 1 0.5 0.3 0 0 6.3 1 2020 11
2 11/14/2020 9:55:36 AM 11/14/2020 10:04:54 AM 1 3.8 82 138 1 N 2 12.5 1 0.5 0.3 0 0 14.3 1 2020 11
2 8/26/2019 4:18:37 PM 8/26/2019 4:19:35 PM 1 0 264 264 1 N 2 1 0 0.5 0.3 0 0 1.8 1 2019 8
2 7/1/2019 8:28:33 AM 7/1/2019 8:32:33 AM 1 0.71 7 7 1 N 1 5 0 0.5 0.3 1.74 0 7.54 1 2019 7
2 7/1/2019 12:04:53 AM 7/1/2019 12:21:56 AM 1 2.71 223 145 1 N 2 13 0.5 0.5 0.3 0 0 14.3 1 2019 7
2 7/1/2019 12:04:11 AM 7/1/2019 12:21:15 AM 1 3.14 166 142 1 N 2 14.5 0.5 0.5 0.3 0 0 18.55 1 2019 7
2 7/1/2019 12:03:37 AM 7/1/2019 12:09:27 AM 1 0.78 74 74 1 N 1 6 0.5 0.5 0.3 1.46 0 8.76 1 2019 7
Name Data type Unique Values (sample) Description
doLocationId string 264 74
42

DOLocationID för den TLC-taxizon där taxametern kopplades från.

dropoffLatitude double 109,721 40.7743034362793
40.77431869506836

Inaktuellt från och med 2016.07

dropoffLongitude double 75,502 -73.95272827148438
-73.95274353027344

Inaktuellt från och med 2016.07

extra double 202 0.5
1.0

Övriga tilläggsavgifter. Detta inkluderar för närvarande endast avgifter på $0,50 och $1 vid rusningstrafik och på natten.

fareAmount double 10,367 6.0
5.5

Taxan för tid och avstånd som beräknas av mätaren.

improvementSurcharge string 92 0.3
0

$0,30 i förbättringsavgift för utvärderade gatuanropade resor vid flaggan. Förbättringsavgiften började användas 2015.

lpepDropoffDatetime timestamp 58,100,713 2016-05-22 00:00:00
2016-05-09 00:00:00

Datum och tid då mätaren kopplades från.

lpepPickupDatetime timestamp 58,157,349 2013-10-22 12:40:36
2014-08-09 15:54:25

Datum och tid då mätaren användes.

mtaTax double 34 0.5
-0.5

$0,50 i MTA-skatt tillämpas automatiskt baserat på den mätartaxa som används.

passengerCount int 10 1
2

Antal passagerare i fordonet.

Detta är ett värde som anges av föraren.

paymentType int 5 2
1

En numerisk kod som visar hur passageraren betalade för resan.

1 = Kreditkort

2 = Kontant

3 = Ingen avgift

4 = Tvist

5 = Okänd

6 = Annullerad resa

pickupLatitude double 95,110 40.721351623535156
40.721336364746094

Inaktuellt från och med 2016.07

pickupLongitude double 55,722 -73.84429931640625
-73.84429168701172

Inaktuellt från och med 2016.07

puLocationId string 264 74
41

TLC-taxizon där taxametern användes.

puMonth int 12 3
5
puYear int 14 2015
2016
rateCodeID int 7 1
5

Den slutliga kodtaxa som används när resan avslutats.

1 = Standardtaxa

2= JFK

3= Newark

4= Nassau eller Westchester

5= Förhandlat pris

6= Gruppresa

storeAndFwdFlag string 2 N
Y

Flaggan visar om färddatan fanns i fordonsminnet innan den skickades till leverantören, dvs. att ”lagra och vidarebefordra”, eftersom fordonet saknade anslutning till servern.

Y = lagra och vidarebefordra resa

N = inte lagra och vidarebefordra resa

tipAmount double 6,206 1.0
2.0

Dricksbelopp – Det här fältet fylls i automatiskt med kreditkortsdricks. Kontantdricks visas inte.

tollsAmount double 2,150 5.54
5.76

Sammanlagt belopp för alla tullavgifter som betalats under resan.

totalAmount double 20,188 7.8
6.8

Det totala belopp som debiteras passagerarna. Kontantdricks ingår inte.

tripDistance double 7,060 0.9
1.0

Den utförda resans längd i miles enligt taxametern.

tripType int 3 1
2

En kod visar om taxin anropades på gatan eller var en beställning som automatiskt tilldelas, baserat på den mätartaxa som användes men som kan ändras av föraren.

1 = Gatuanrop

2 = Beställning

vendorID int 2 2
1

En kod som visar den LPEP-leverantör som tillhandahöll registret.

1= Creative Mobile Technologies, LLC;

2= VeriFone Inc.

Select your preferred service:

Azure Notebooks

Azure Databricks

Azure Synapse

Azure Notebooks

Package: Language: Python Python
In [1]:
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
ActivityStarted, to_pandas_dataframe ActivityStarted, to_pandas_dataframe_in_worker Target paths: ['/puYear=2018/puMonth=5/', '/puYear=2018/puMonth=6/'] Looking for parquet files... Reading them into Pandas dataframe... Reading green/puYear=2018/puMonth=5/part-00087-tid-6037743401120983271-619c4849-c957-4290-a1b8-66832cb385b6-12506.c000.snappy.parquet under container nyctlc Reading green/puYear=2018/puMonth=6/part-00171-tid-6037743401120983271-619c4849-c957-4290-a1b8-66832cb385b6-12590.c000.snappy.parquet under container nyctlc Done. ActivityCompleted: Activity=to_pandas_dataframe_in_worker, HowEnded=Success, Duration=5555.67 [ms] ActivityCompleted: Activity=to_pandas_dataframe, HowEnded=Success, Duration=5559.68 [ms]
In [2]:
nyc_tlc_df.info()
<class 'pandas.core.frame.DataFrame'> Int64Index: 923257 entries, 0 to 498783 Data columns (total 23 columns): vendorID 923257 non-null int32 lpepPickupDatetime 923257 non-null datetime64[ns] lpepDropoffDatetime 923257 non-null datetime64[ns] passengerCount 923257 non-null int32 tripDistance 923257 non-null float64 puLocationId 923257 non-null object doLocationId 923257 non-null object pickupLongitude 0 non-null float64 pickupLatitude 0 non-null float64 dropoffLongitude 0 non-null float64 dropoffLatitude 0 non-null float64 rateCodeID 923257 non-null int32 storeAndFwdFlag 923257 non-null object paymentType 923257 non-null int32 fareAmount 923257 non-null float64 extra 923257 non-null float64 mtaTax 923257 non-null float64 improvementSurcharge 923257 non-null object tipAmount 923257 non-null float64 tollsAmount 923257 non-null float64 ehailFee 0 non-null float64 totalAmount 923257 non-null float64 tripType 923257 non-null int32 dtypes: datetime64[ns](2), float64(12), int32(5), object(4) memory usage: 151.4+ MB
In [1]:
# Pip install packages
import os, sys

!{sys.executable} -m pip install azure-storage
!{sys.executable} -m pip install pyarrow
!{sys.executable} -m pip install pandas
In [2]:
# Azure storage access info
azure_storage_account_name = "azureopendatastorage"
azure_storage_sas_token = r""
container_name = "nyctlc"
folder_name = "green"
In [3]:
from azure.storage.blob import BlockBlobService

if azure_storage_account_name is None or azure_storage_sas_token is None:
    raise Exception("Provide your specific name and key for your Azure Storage account--see the Prerequisites section earlier.")

print('Looking for the first parquet under the folder ' + folder_name + ' in container "' + container_name + '"...')
blob_service = BlockBlobService(account_name = azure_storage_account_name, sas_token = azure_storage_sas_token,)
blobs = blob_service.list_blobs(container_name)
sorted_blobs = sorted(list(blobs), key=lambda e: e.name, reverse=True)
targetBlobName=''
for blob in sorted_blobs:
    if blob.name.startswith(folder_name) and blob.name.endswith('.parquet'):
        targetBlobName = blob.name
        break

print('Target blob to download: ' + targetBlobName)
_, filename = os.path.split(targetBlobName)
parquet_file=blob_service.get_blob_to_path(container_name, targetBlobName, filename)
In [4]:
# Read the local parquet file into Pandas data frame
import pyarrow.parquet as pq
import pandas as pd

appended_df = []
print('Reading the local parquet file into Pandas data frame')
df = pq.read_table(filename).to_pandas()
In [5]:
# you can add your filter at below
print('Loaded as a Pandas data frame: ')
df
In [6]:
 

Azure Databricks

Package: Language: Python Python
In [1]:
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
ActivityStarted, to_spark_dataframe ActivityStarted, to_spark_dataframe_in_worker ActivityCompleted: Activity=to_spark_dataframe_in_worker, HowEnded=Success, Duration=47328.45 [ms] ActivityCompleted: Activity=to_spark_dataframe, HowEnded=Success, Duration=47332.79 [ms]
In [2]:
display(nyc_tlc_df.limit(5))
vendorIDlpepPickupDatetimelpepDropoffDatetimepassengerCounttripDistancepuLocationIddoLocationIdpickupLongitudepickupLatitudedropoffLongitudedropoffLatituderateCodeIDstoreAndFwdFlagpaymentTypefareAmountextramtaTaximprovementSurchargetipAmounttollsAmountehailFeetotalAmounttripTypepuYearpuMonth
22018-05-23T23:14:19.000+00002018-05-23T23:17:43.000+000010.611642nullnullnullnull1N14.50.00.50.30.010.0null5.31120185
22018-05-23T23:24:21.000+00002018-05-23T23:33:00.000+000011.1442116nullnullnullnull1N17.00.00.50.31.560.0null9.36120185
22018-05-07T08:52:57.000+00002018-05-08T03:14:08.000+000011.27119247nullnullnullnull1N27.50.00.50.30.00.0null8.3120185
22018-05-07T03:16:20.000+00002018-05-07T03:39:26.000+000013.8224718nullnullnullnull1N117.50.00.50.30.00.0null18.3120185
22018-05-07T03:40:25.000+00002018-05-07T03:46:11.000+000010.9818136nullnullnullnull1N26.00.00.50.30.00.0null6.8120185
In [1]:
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "nyctlc"
blob_relative_path = "green"
blob_sas_token = r""
In [2]:
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)
In [3]:
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
In [4]:
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))

Azure Synapse

Package: Language: Python Python
In [6]:
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
In [7]:
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Out[7]:
In [9]:
# Display data statistic information
display(nyc_tlc_df, summary = True)
Out[9]:
In [1]:
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "nyctlc"
blob_relative_path = "green"
blob_sas_token = r""
In [2]:
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)
In [3]:
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
In [4]:
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))