Yeşil taksi yolculuk kayıtları, yolcu alma ve bırakma tarihlerini/saatlerini, yolcu alma ve bırakma konumlarını, yolculuk mesafelerini, listeli tarifeleri, fiyat türlerini, ödeme türlerini ve sürücü tarafından bildirilen yolcu sayılarını yakalayan alanları içerir.
Hacim ve Saklama
Bu veri kümesi Parquet biçiminde depolanır. 2018 itibarıyla toplamda yaklaşık 80 milyon satır (2 GB) mevcuttur.
Bu veri kümesi 2009 ile 2018 arasında birikmiş geçmiş kayıtları içermektedir. Belirli bir zaman aralığı içindeki verileri getirmek için SDK’mızdaki parametre ayarlarını kullanabilirsiniz.
Depolama Konumu
Bu veri kümesi Doğu ABD Azure bölgesinde depolanır. Benzeşim için Doğu ABD’deki işlem kaynaklarının ayrılması önerilir.
Ek Bilgiler
NYC Taksi ve Limuzin Komisyonu (TLC):
Veriler Taksi ve Kiralık Taksi Yolcu Geliştirme Programları (TPEP/LPEP) kapsamında yetkilendirilmiş teknoloji sağlayıcıları tarafından toplanıp NYC Taksi ve Limuzin Komisyonu’na (TLC) sunulmuştur. Yolculuk veirleri TLC tarafından oluşturulmamıştır ve TLC bu verilerin doğruluğu hakkında bir taahhütte bulunmaz.
TLC Yolculuk Kayıt Verileri hakkında ek bilgiler burada ve burada bulunabilir.
Bildirimler
MICROSOFT, AZURE AÇIK VERİ KÜMELERİNİ “OLDUĞU GİBİ” SAĞLAR. MICROSOFT, VERİ KÜMELERİNİ KULLANMANIZLA İLGİLİ AÇIK VEYA ÖRTÜLÜ HİÇBİR GARANTİ VEYA TAAHHÜTTE BULUNMAZ. YEREL KANUNLARINIZIN İZİN VERDİĞİ ÖLÇÜDE, MICROSOFT DOĞRUDAN, BAĞLI, ÖZEL, DOLAYLI, TESADÜFİ VEYA CEZA GEREKTİRENLER DE DAHİL OLMAK ÜZERE HERHANGİ BİR HASAR YA DA KAYIPLA İLGİLİ HİÇBİR SORUMLULUK KABUL ETMEZ.
Bu veri kümesi Microsoft’un kaynak verileri aldığı orijinal hükümler kapsamında sağlanır. Veri kümesi Microsoft’tan alınan verileri içerebilir.
Access
Available in | When to use |
---|---|
Azure Notebooks | Quickly explore the dataset with Jupyter notebooks hosted on Azure or your local machine. |
Azure Databricks | Use this when you need the scale of an Azure managed Spark cluster to process the dataset. |
Azure Synapse | Use this when you need the scale of an Azure managed Spark cluster to process the dataset. |
Preview
vendorID | lpepPickupDatetime | lpepDropoffDatetime | passengerCount | tripDistance | puLocationId | doLocationId | rateCodeID | storeAndFwdFlag | paymentType | fareAmount | extra | mtaTax | improvementSurcharge | tipAmount | tollsAmount | totalAmount | tripType | puYear | puMonth |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
2 | 6/24/2081 5:40:37 PM | 6/24/2081 6:42:47 PM | 1 | 16.95 | 93 | 117 | 1 | N | 1 | 52 | 1 | 0.5 | 0.3 | 0 | 2.16 | 55.96 | 1 | 2081 | 6 |
2 | 11/28/2030 12:19:29 AM | 11/28/2030 12:25:37 AM | 1 | 1.08 | 42 | 247 | 1 | N | 2 | 6.5 | 0 | 0.5 | 0.3 | 0 | 0 | 7.3 | 1 | 2030 | 11 |
2 | 11/28/2030 12:14:50 AM | 11/28/2030 12:14:54 AM | 1 | 0.03 | 42 | 42 | 5 | N | 2 | 5 | 0 | 0 | 0 | 0 | 0 | 5 | 2 | 2030 | 11 |
2 | 11/14/2020 11:38:07 AM | 11/14/2020 11:42:22 AM | 1 | 0.63 | 129 | 129 | 1 | N | 2 | 4.5 | 1 | 0.5 | 0.3 | 0 | 0 | 6.3 | 1 | 2020 | 11 |
2 | 11/14/2020 9:55:36 AM | 11/14/2020 10:04:54 AM | 1 | 3.8 | 82 | 138 | 1 | N | 2 | 12.5 | 1 | 0.5 | 0.3 | 0 | 0 | 14.3 | 1 | 2020 | 11 |
2 | 8/26/2019 4:18:37 PM | 8/26/2019 4:19:35 PM | 1 | 0 | 264 | 264 | 1 | N | 2 | 1 | 0 | 0.5 | 0.3 | 0 | 0 | 1.8 | 1 | 2019 | 8 |
2 | 7/1/2019 8:28:33 AM | 7/1/2019 8:32:33 AM | 1 | 0.71 | 7 | 7 | 1 | N | 1 | 5 | 0 | 0.5 | 0.3 | 1.74 | 0 | 7.54 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:53 AM | 7/1/2019 12:21:56 AM | 1 | 2.71 | 223 | 145 | 1 | N | 2 | 13 | 0.5 | 0.5 | 0.3 | 0 | 0 | 14.3 | 1 | 2019 | 7 |
2 | 7/1/2019 12:04:11 AM | 7/1/2019 12:21:15 AM | 1 | 3.14 | 166 | 142 | 1 | N | 2 | 14.5 | 0.5 | 0.5 | 0.3 | 0 | 0 | 18.55 | 1 | 2019 | 7 |
2 | 7/1/2019 12:03:37 AM | 7/1/2019 12:09:27 AM | 1 | 0.78 | 74 | 74 | 1 | N | 1 | 6 | 0.5 | 0.5 | 0.3 | 1.46 | 0 | 8.76 | 1 | 2019 | 7 |
Name | Data type | Unique | Values (sample) | Description |
---|---|---|---|---|
doLocationId | string | 264 | 74 42 |
Taksimetrenin devre dışı olduğu DOLocationID TLC Taksi Bölgesi. |
dropoffLatitude | double | 109,721 | 40.7743034362793 40.77431869506836 |
2016.07’den itibaren kullanım dışı bırakıldı |
dropoffLongitude | double | 75,502 | -73.95272827148438 -73.95274353027344 |
2016.07’den itibaren kullanım dışı bırakıldı |
extra | double | 202 | 0.5 1.0 |
Çeşitli ekstralar ve ek ücretler. Şu anda buna yalnızca 0,50 ABD doları ve 1 ABD doları yoğun saat ve gecelik ücretler dahildir. |
fareAmount | double | 10,367 | 6.0 5.5 |
Ölçüm cihazı tarafından hesaplanan saat-mesafe tarifesi. |
improvementSurcharge | string | 92 | 0.3 0 |
Bayrak indirildiği zaman çağrılan yolculuklarda değerlendirilen 0,30 ABD doları iyileştirme ek ücreti. İyileştirme ek ücreti 2015 yılında toplanmaya başlamıştır. |
lpepDropoffDatetime | timestamp | 58,100,713 | 2016-05-22 00:00:00 2016-05-09 00:00:00 |
Ölçümün devre dışı olduğu tarih ve saat. |
lpepPickupDatetime | timestamp | 58,157,349 | 2013-10-22 12:40:36 2014-08-09 15:54:25 |
Ölçümün devreye girdiği tarih ve saat. |
mtaTax | double | 34 | 0.5 -0.5 |
Kullanımdaki tarifeli fiyata göre otomatik olarak tetiklenen 0,50 ABD doları MTA vergisi. |
passengerCount | int | 10 | 1 2 |
Araçtaki yolcu sayısı. Bu değer sürücü tarafından girilir. |
paymentType | int | 5 | 2 1 |
Yolcunun seyahat ücretini nasıl ödediğini belirten sayısal kod. 1= Kredi kartı 2= Nakit 3= Ücretsiz 4= Anlaşmazlık 5= Bilinmiyor 6= Yolculuk iptal edildi |
pickupLatitude | double | 95,110 | 40.721351623535156 40.721336364746094 |
2016.07’den itibaren kullanım dışı bırakıldı |
pickupLongitude | double | 55,722 | -73.84429931640625 -73.84429168701172 |
2016.07’den itibaren kullanım dışı bırakıldı |
puLocationId | string | 264 | 74 41 |
Taksimetrenin devreye girdiği TLC Taksi Bölgesi. |
puMonth | int | 12 | 3 5 |
|
puYear | int | 14 | 2015 2016 |
|
rateCodeID | int | 7 | 1 5 |
Yolculuğun sonunda geçerli olan son fiyat kodu. 1= Standart fiyat 2= JFK 3= Newark 4= Nassau veya Westchester 5= Anlaşılan tarife 6= Grup fiyatı |
storeAndFwdFlag | string | 2 | N Y |
Bu bayrak, yolculuk kaydının satıcıya gönderilmeden önce araç belleğinde tutulup tutulmadığını, yani aracın sunucuyla bağlantısı olmadığı için “depola ve ilet” işleminin yapılıp yapılmadığını gösterir. E= depola ve ilet yolculuğu H= depola ve ilet yolculuğu değil |
tipAmount | double | 6,206 | 1.0 2.0 |
Bahşiş tutarı – Kredi kartı bahşişleri için bu alan otomatik olarak doldurulur. Nakit bahşişler dahil değildir. |
tollsAmount | double | 2,150 | 5.54 5.76 |
Yolculukta ödenen tüm ücretlerin toplam tutarı. |
totalAmount | double | 20,188 | 7.8 6.8 |
Yolculardan alınan toplam ücret. Nakit bahşişler dahil değildir. |
tripDistance | double | 7,060 | 0.9 1.0 |
Taksimetrenin mil cinsinden bildirdiği geçen yolculuk mesafesi. |
tripType | int | 3 | 1 2 |
Yolculuğun sokaktan çevirme veya kullanımdaki tarifeli fiyata göre otomatik olarak atanan ancak sürücü tarafından değiştirilebilen bir gönderme olduğunu gösteren kod. 1= Sokaktan çevirme 2= Gönderme |
vendorID | int | 2 | 2 1 |
Kaydı oluşturan LPEP sağlayıcısını gösteren kod. 1= Creative Mobile Technologies, LLC; 2= VeriFone Inc. |
Azure Notebooks
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_pandas_dataframe()
nyc_tlc_df.info()
# Pip install packages
import os, sys
!{sys.executable} -m pip install azure-storage-blob
!{sys.executable} -m pip install pyarrow
!{sys.executable} -m pip install pandas
# Azure storage access info
azure_storage_account_name = "azureopendatastorage"
azure_storage_sas_token = r""
container_name = "nyctlc"
folder_name = "green"
from azure.storage.blob import BlockBlobServicefrom azure.storage.blob import BlobServiceClient, BlobClient, ContainerClient
if azure_storage_account_name is None or azure_storage_sas_token is None:
raise Exception(
"Provide your specific name and key for your Azure Storage account--see the Prerequisites section earlier.")
print('Looking for the first parquet under the folder ' +
folder_name + ' in container "' + container_name + '"...')
container_url = f"https://{azure_storage_account_name}.blob.core.windows.net/"
blob_service_client = BlobServiceClient(
container_url, azure_storage_sas_token if azure_storage_sas_token else None)
container_client = blob_service_client.get_container_client(container_name)
blobs = container_client.list_blobs(folder_name)
sorted_blobs = sorted(list(blobs), key=lambda e: e.name, reverse=True)
targetBlobName = ''
for blob in sorted_blobs:
if blob.name.startswith(folder_name) and blob.name.endswith('.parquet'):
targetBlobName = blob.name
break
print('Target blob to download: ' + targetBlobName)
_, filename = os.path.split(targetBlobName)
blob_client = container_client.get_blob_client(targetBlobName)
with open(filename, 'wb') as local_file:
blob_client.download_blob().download_to_stream(local_file)
# Read the parquet file into Pandas data frame
import pandas as pd
print('Reading the parquet file into Pandas data frame')
df = pd.read_parquet(filename)
# you can add your filter at below
print('Loaded as a Pandas data frame: ')
df
Azure Databricks
# This is a package in preview.
# You need to pip install azureml-opendatasets in Databricks cluster. https://docs.microsoft.com/en-us/azure/data-explorer/connect-from-databricks#install-the-python-library-on-your-azure-databricks-cluster
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
display(nyc_tlc_df.limit(5))
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "nyctlc"
blob_relative_path = "green"
blob_sas_token = r""
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
blob_sas_token)
print('Remote blob path: ' + wasbs_path)
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))
Azure Synapse
# This is a package in preview.
from azureml.opendatasets import NycTlcGreen
from datetime import datetime
from dateutil import parser
end_date = parser.parse('2018-06-06')
start_date = parser.parse('2018-05-01')
nyc_tlc = NycTlcGreen(start_date=start_date, end_date=end_date)
nyc_tlc_df = nyc_tlc.to_spark_dataframe()
# Display top 5 rows
display(nyc_tlc_df.limit(5))
# Display data statistic information
display(nyc_tlc_df, summary = True)
# Azure storage access info
blob_account_name = "azureopendatastorage"
blob_container_name = "nyctlc"
blob_relative_path = "green"
blob_sas_token = r""
# Allow SPARK to read from Blob remotely
wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
spark.conf.set(
'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
blob_sas_token)
print('Remote blob path: ' + wasbs_path)
# SPARK read parquet, note that it won't load any data yet by now
df = spark.read.parquet(wasbs_path)
print('Register the DataFrame as a SQL temporary view: source')
df.createOrReplaceTempView('source')
# Display top 10 rows
print('Displaying top 10 rows: ')
display(spark.sql('SELECT * FROM source LIMIT 10'))