Passer la navigation

NYC Taxi & Limousine Commission - green taxi trip records

NYC TLC Taxi green

Les enregistrements de trajets en taxi vert incluent des champs indiquant les dates et heures de début et fin de trajet, les lieux de départ et d’arrivée, la distance des trajets, les tarifs détaillés, les types de tarifs, les types de paiement et le nombre de passagers signalé par le conducteur.

Volume et rétention

Ce jeu de données est stocké au format Parquet. Il y a environ 80 millions de lignes (2 Go) en 2018.

Ce jeu de données contient les enregistrements historiques accumulés de 2009 à 2018. Vous pouvez utiliser les paramètres de paramétrage de notre SDK pour récupérer les données dans un intervalle de temps spécifique.

Emplacement de stockage

Ce jeu de données est stocké dans la région Azure USA Est. L’allocation de ressources de calcul dans la région USA Est est recommandée à des fins d’affinité.

Informations supplémentaires

Commission des services de taxis et de limousines de la ville de New York (en anglais)

Les données ont été collectées et fournies à la Commission des services de taxis et de limousines de la ville de New York (TLC) par des fournisseurs de technologie agréés dans le cadre du programme d’amélioration du trafic passagers et taxis (TPEP/LPEP). Les données sur les trajets n’ont pas été créées par la TLC et celle-ci ne fait aucune déclaration quant à l’exactitude de ces données.

Des informations supplémentaires sur les données d’enregistrement de trajet TLC sont disponibles ici et ici.

Remarques

MICROSOFT FOURNIT AZURE OPEN DATASETS “EN L’ÉTAT”. MICROSOFT N’OFFRE AUCUNE GARANTIE, EXPRESSE OU IMPLICITE, DE GARANTIE NI DE CONDITIONS RELATIVES À VOTRE UTILISATION DES JEUX DE DONNÉES. DANS LA MESURE AUTORISÉE PAR VOTRE DROIT LOCAL, MICROSOFT DÉCLINE TOUTE RESPONSABILITÉ POUR TOUT DOMMAGE OU PERTES, Y COMPRIS LES DIRECTIVES, CONSEQUENTIELLES, SPÉCIALES, INDIRECTES OU PUNITIVES, RÉSULTANT DE VOTRE UTILISATION DES JEUX DE DONNÉES.

Ce jeu de données est fourni selon les conditions initiales par lesquelles Microsoft a reçu les données sources. Le jeu de données peut inclure des données provenant de Microsoft.

Access

Available inWhen to use
Azure Notebooks

Quickly explore the dataset with Jupyter notebooks hosted on Azure or your local machine.

Azure Databricks

Use this when you need the scale of an Azure managed Spark cluster to process the dataset.

Azure Synapse

Use this when you need the scale of an Azure managed Spark cluster to process the dataset.

Preview

vendorID lpepPickupDatetime lpepDropoffDatetime passengerCount tripDistance puLocationId doLocationId rateCodeID storeAndFwdFlag paymentType fareAmount extra mtaTax improvementSurcharge tipAmount tollsAmount totalAmount tripType puYear puMonth
2 6/24/2081 5:40:37 PM 6/24/2081 6:42:47 PM 1 16.95 93 117 1 N 1 52 1 0.5 0.3 0 2.16 55.96 1 2081 6
2 11/28/2030 12:19:29 AM 11/28/2030 12:25:37 AM 1 1.08 42 247 1 N 2 6.5 0 0.5 0.3 0 0 7.3 1 2030 11
2 11/28/2030 12:14:50 AM 11/28/2030 12:14:54 AM 1 0.03 42 42 5 N 2 5 0 0 0 0 0 5 2 2030 11
2 11/14/2020 11:38:07 AM 11/14/2020 11:42:22 AM 1 0.63 129 129 1 N 2 4.5 1 0.5 0.3 0 0 6.3 1 2020 11
2 11/14/2020 9:55:36 AM 11/14/2020 10:04:54 AM 1 3.8 82 138 1 N 2 12.5 1 0.5 0.3 0 0 14.3 1 2020 11
2 8/26/2019 4:18:37 PM 8/26/2019 4:19:35 PM 1 0 264 264 1 N 2 1 0 0.5 0.3 0 0 1.8 1 2019 8
2 7/1/2019 8:28:33 AM 7/1/2019 8:32:33 AM 1 0.71 7 7 1 N 1 5 0 0.5 0.3 1.74 0 7.54 1 2019 7
2 7/1/2019 12:04:53 AM 7/1/2019 12:21:56 AM 1 2.71 223 145 1 N 2 13 0.5 0.5 0.3 0 0 14.3 1 2019 7
2 7/1/2019 12:04:11 AM 7/1/2019 12:21:15 AM 1 3.14 166 142 1 N 2 14.5 0.5 0.5 0.3 0 0 18.55 1 2019 7
2 7/1/2019 12:03:37 AM 7/1/2019 12:09:27 AM 1 0.78 74 74 1 N 1 6 0.5 0.5 0.3 1.46 0 8.76 1 2019 7
Name Data type Unique Values (sample) Description
doLocationId string 264 74
42

Zone de taxi TLC DOLocationID où le compteur a été arrêté.

dropoffLatitude double 109,721 40.7743034362793
40.77431869506836

Déconseillé depuis juillet 2016

dropoffLongitude double 75,502 -73.95272827148438
-73.95274353027344

Déconseillé depuis juillet 2016

extra double 202 0.5
1.0

Frais et suppléments divers. Actuellement, cela n’inclut que les frais de 0,50 $ et de 1 $ pour les heure de pointe et de nuit.

fareAmount double 10,367 6.0
5.5

Tarif temps-distance calculé par le compteur.

improvementSurcharge string 92 0.3
0

Supplément pour l’amélioration de 0,30 $ évalué sur les trajets hélés à une station. Le supplément pour amélioration a commencé à être perçu en 2015.

lpepDropoffDatetime timestamp 58,100,713 2016-05-22 00:00:00
2016-05-09 00:00:00

Date et heure auxquelles le compteur a été arrêté.

lpepPickupDatetime timestamp 58,157,349 2013-10-22 12:40:36
2014-08-09 15:54:25

Date et heure auxquelles le compteur a été lancé.

mtaTax double 34 0.5
-0.5

Taxe de 0,50 USD MTA déclenchée automatiquement en fonction du tarif affiché au compteur.

passengerCount int 10 1
2

Nombre de passagers dans le véhicule.

Cette valeur est entrée par le conducteur.

paymentType int 5 2
1

Code numérique indiquant comment le passager a payé le trajet.

1= Carte bancaire

2= Monnaie

3= Aucun frais

4= Différend

5= Inconnu

6= Trajet annulé

pickupLatitude double 95,110 40.721351623535156
40.721336364746094

Déconseillé depuis juillet 2016

pickupLongitude double 55,722 -73.84429931640625
-73.84429168701172

Déconseillé depuis juillet 2016

puLocationId string 264 74
41

Zone de taxi TLC où le compteur a été lancé.

puMonth int 12 3
5
puYear int 14 2015
2016
rateCodeID int 7 1
5

Code tarifaire final en vigueur à la fin du trajet.

1= Tarif standard

2= JFK

3= Newark

4= Nassau ou Westchester

5= Tarif négocié

6= Trajet à plusieurs

storeAndFwdFlag string 2 N
Y

Cet indicateur indique si l’enregistrement de trajet a été conservé dans la mémoire du véhicule avant son envoi au fournisseur, également appelé « stocker et transférer », car le véhicule n’était pas connecté au serveur.

Y=Stocker et transférer le trajet

N=Ne pas stocker et transférer le trajet

tipAmount double 6,206 1.0
2.0

Montant du pourboire - Ce champ est automatiquement renseigné pour les pourboires en carte bancaire. Les pourboires en espèces ne sont pas inclus.

tollsAmount double 2,150 5.54
5.76

Montant total de tous les péages payés lors du trajet.

totalAmount double 20,188 7.8
6.8

Montant total facturé aux passagers. N’inclut pas les pourboires.

tripDistance double 7,060 0.9
1.0

Distance parcourue en miles indiquée par le compteur.

tripType int 3 1
2

Code indiquant si le trajet a été hélé dans la rue ou s’il s’agit d’une commande automatiquement attribuée en fonction du tarif mesuré utilisé, mais pouvant être modifié par le conducteur.

1= Hélé dans la rue

2= Commande

vendorID int 2 2
1

Code indiquant le fournisseur LPEP qui a fourni l’enregistrement.

1= Creative Mobile Technologies, LLC;

2= VeriFone Inc.

Select your preferred service:

Azure Notebooks

Azure Databricks

Azure Synapse

Azure Notebooks

Package: Language: Python Python
In [1]:
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
ActivityStarted, to_pandas_dataframe ActivityStarted, to_pandas_dataframe_in_worker Target paths: ['/puYear=2018/puMonth=5/', '/puYear=2018/puMonth=6/'] Looking for parquet files... Reading them into Pandas dataframe... Reading green/puYear=2018/puMonth=5/part-00087-tid-6037743401120983271-619c4849-c957-4290-a1b8-66832cb385b6-12506.c000.snappy.parquet under container nyctlc Reading green/puYear=2018/puMonth=6/part-00171-tid-6037743401120983271-619c4849-c957-4290-a1b8-66832cb385b6-12590.c000.snappy.parquet under container nyctlc Done. ActivityCompleted: Activity=to_pandas_dataframe_in_worker, HowEnded=Success, Duration=5555.67 [ms] ActivityCompleted: Activity=to_pandas_dataframe, HowEnded=Success, Duration=5559.68 [ms]
In [2]:
nyc_tlc_df.info()
<class 'pandas.core.frame.DataFrame'> Int64Index: 923257 entries, 0 to 498783 Data columns (total 23 columns): vendorID 923257 non-null int32 lpepPickupDatetime 923257 non-null datetime64[ns] lpepDropoffDatetime 923257 non-null datetime64[ns] passengerCount 923257 non-null int32 tripDistance 923257 non-null float64 puLocationId 923257 non-null object doLocationId 923257 non-null object pickupLongitude 0 non-null float64 pickupLatitude 0 non-null float64 dropoffLongitude 0 non-null float64 dropoffLatitude 0 non-null float64 rateCodeID 923257 non-null int32 storeAndFwdFlag 923257 non-null object paymentType 923257 non-null int32 fareAmount 923257 non-null float64 extra 923257 non-null float64 mtaTax 923257 non-null float64 improvementSurcharge 923257 non-null object tipAmount 923257 non-null float64 tollsAmount 923257 non-null float64 ehailFee 0 non-null float64 totalAmount 923257 non-null float64 tripType 923257 non-null int32 dtypes: datetime64[ns](2), float64(12), int32(5), object(4) memory usage: 151.4+ MB
In [1]:
# Pip install packages
import os, sys

!{sys.executable} -m pip install azure-storage-blob
!{sys.executable} -m pip install pyarrow
!{sys.executable} -m pip install pandas
In [2]:
# Azure storage access info
azure_storage_account_name = "azureopendatastorage"
azure_storage_sas_token = r""
container_name = "nyctlc"
folder_name = "green"
In [3]:
from azure.storage.blob import BlockBlobServicefrom azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient

if azure_storage_account_name is None or azure_storage_sas_token is None:
    raise Exception(
        "Provide your specific name and key for your Azure Storage account--see the Prerequisites section earlier.")

print('Looking for the first parquet under the folder ' +
      folder_name + ' in container "' + container_name + '"...')
container_url = f"https://{azure_storage_account_name}.blob.core.windows.net/"
blob_service_client = BlobServiceClient(
    container_url, azure_storage_sas_token if azure_storage_sas_token else None)

container_client = blob_service_client.get_container_client(container_name)
blobs = container_client.list_blobs(folder_name)
sorted_blobs = sorted(list(blobs), key=lambda e: e.name, reverse=True)
targetBlobName = ''
for blob in sorted_blobs:
    if blob.name.startswith(folder_name) and blob.name.endswith('.parquet'):
        targetBlobName = blob.name
        break

print('Target blob to download: ' + targetBlobName)
_, filename = os.path.split(targetBlobName)
blob_client = container_client.get_blob_client(targetBlobName)
with open(filename, 'wb') as local_file:
    blob_client.download_blob().download_to_stream(local_file)
In [4]:
# Read the parquet file into Pandas data frame
import pandas as pd

print('Reading the parquet file into Pandas data frame')
df = pd.read_parquet(filename)
In [5]:
# you can add your filter at below
print('Loaded as a Pandas data frame: ')
df
In [6]:
 

Azure Databricks

Package: Language: Python Python
In [1]:
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
ActivityStarted, to_spark_dataframe ActivityStarted, to_spark_dataframe_in_worker ActivityCompleted: Activity=to_spark_dataframe_in_worker, HowEnded=Success, Duration=47328.45 [ms] ActivityCompleted: Activity=to_spark_dataframe, HowEnded=Success, Duration=47332.79 [ms]
In [2]:
display(nyc_tlc_df.limit(5))
vendorIDlpepPickupDatetimelpepDropoffDatetimepassengerCounttripDistancepuLocationIddoLocationIdpickupLongitudepickupLatitudedropoffLongitudedropoffLatituderateCodeIDstoreAndFwdFlagpaymentTypefareAmountextramtaTaximprovementSurchargetipAmounttollsAmountehailFeetotalAmounttripTypepuYearpuMonth
22018-05-23T23:14:19.000+00002018-05-23T23:17:43.000+000010.611642nullnullnullnull1N14.50.00.50.30.010.0null5.31120185
22018-05-23T23:24:21.000+00002018-05-23T23:33:00.000+000011.1442116nullnullnullnull1N17.00.00.50.31.560.0null9.36120185
22018-05-07T08:52:57.000+00002018-05-08T03:14:08.000+000011.27119247nullnullnullnull1N27.50.00.50.30.00.0null8.3120185
22018-05-07T03:16:20.000+00002018-05-07T03:39:26.000+000013.8224718nullnullnullnull1N117.50.00.50.30.00.0null18.3120185
22018-05-07T03:40:25.000+00002018-05-07T03:46:11.000+000010.9818136nullnullnullnull1N26.00.00.50.30.00.0null6.8120185
In [1]:
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "nyctlc"
blob_relative_path = "green"
blob_sas_token = r""
In [2]:
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)
In [3]:
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
In [4]:
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))

Azure Synapse

Package: Language: Python Python
In [6]:
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen

from datetime import datetime
from dateutil import parser


end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
In [7]:
# Display top 5 rows
display(nyc_tlc_df.limit(5))
Out[7]:
In [9]:
# Display data statistic information
display(nyc_tlc_df, summary = True)
Out[9]:
In [1]:
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "nyctlc"
blob_relative_path = "green"
blob_sas_token = r""
In [2]:
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
  'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
  blob_sas_token)
print('Remote blob path: ' + wasbs_path)
In [3]:
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
In [4]:
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))