Azure Open Datasets

아티클
03/04/2024

공개적으로 사용 가능한 데이터 세트를 사용하여 기계 학습 모델의 정확도를 향상시킵니다. 기계 학습 프로젝트에서 사용할 준비가 된 큐레이팅된 데이터 세트를 사용하여 데이터 검색 및 준비 시간을 절약합니다.

운송

데이터 세트	설명
TartanAir: AirSim Simulation 데이터 세트	SLAM(Simultaneous Localization and Mapping)을 해결하기 위해 생성된 AirSim 자율주행차 데이터
NYC 택시 및 리무진 협회 - 노란색 택시 이동 레코드	노란색 택시 이동 레코드에는 승차 및 하차 날짜/시간, 승차 및 하단 위치, 이동 거리, 항목별 요금, 요율 종류, 지불 유형 및 운전자가 보고한 승객 수가 포함됩니다.
NYC 택시 및 리무진 협회 - 녹색 택시 이동 레코드	녹색 택시 이동 레코드에는 승차 및 하차 날짜/시간, 승차 및 하단 위치, 이동 거리, 항목별 요금, 요율 종류, 지불 유형 및 운전자가 보고한 승객 수가 포함됩니다.
NYC 택시 및 리무진 협회 - FHV(임대 차량) 여행 기록	For-Hire Vehicle 이동 레코드는 배차 기준 면허증 번호 및 픽업 날짜/시간, 택시 승차 구역 위치 ID를 포함합니다.

상태 및 유전체학

데이터 세트	설명
코로나19 Data Lake	코로나19 데이터 레이크 컬렉션은 검사 및 환자 결과 추적 데이터, 사회적 거리두기 정책, 병원 수용 능력, 이동성 등 다양한 원본의 코로나19 관련 데이터 세트 컬렉션입니다.
코로나19 공개 연구 데이터 세트	머신 가독성을 위해 최적화되었으며 전 세계 연구계에서 사용할 수 있도록 제공되는, 코로나19 및 코로나바이러스 관련 학술 문건의 전문 및 메타데이터 데이터 세트입니다.
Genomics Data Lake	Genomics Data Lake는 무료로 액세스하고 유전체학 분석 워크플로 및 애플리케이션에 통합할 수 있는 다양한 퍼블릭 데이터 세트를 제공합니다. 이 데이터 세트는 BAM, FASTA, VCF, CSV 파일 형식의 게놈 시퀀스, 변이 정보 및 주제/샘플 메타데이터를 포함합니다.

노동 및 경제

데이터 세트	설명
미국 노동력 통계	미국 노동력 통계는 연령, 성별, 인종 및 민족 집단별 노동력 통계, 노동력 인구 비율 및 생산 가능 인구를 제공합니다. (미국)
미국 국가 고용 시간 및 소득	CES(Current Employment Statistics) 프로그램은 미국의 급여 대장에 있는 노동자의 농장 이외 고용, 시간 및 소득의 자세한 산업 예상치를 생성합니다.
미국 주 고용 시간 및 소득	CES(Current Employment Statistics) 프로그램은 미국의 급여 대장에 있는 노동자의 농장 이외 고용, 시간 및 소득의 자세한 산업 예상치를 생성합니다.
미국 지역 실업 통계	미국 지역 실업 통계 데이터 세트는 미국의 인구 조사 지역 및 구역, 주, 카운티, 대도시 지역 및 여러 도시에 대한 월별 및 연간 고용, 실업 및 노동력 데이터를 제공합니다.
미국 소비자 물가 지수	CPI(소비자 물가 지수)는 도시 소비자가 장바구니 소비재 및 서비스에 지불한 가격의 시간에 따른 평균 변동을 측정한 값입니다.
미국 생산자 물가 지수 - 산업	PPI(생산자 물가 지수)는 국내 생산자가 얻는 산출물 판매 가격의 시간에 따른 평균 변동을 측정한 값입니다.
미국 생산자 물가 지수 - 상품	PPI(생산자 물가 지수)는 국내 생산자가 얻는 상품 판매 가격의 시간에 따른 평균 변동을 측정한 값입니다.

인구 및 안전

데이터 세트	설명
자치주별 미국 인구	2000년 및 2010년 10년 단위 인구 조사에서 제공된 미국 각 자치주의 성별 및 인종별 미국 인구입니다. 이 데이터 세트의 출처는 미국 인구 조사국입니다.
미국 우편 번호별 미국 인구	2010 Decennial Census에서 제공된 각 미국 우편 번호에 대한 성별 및 인종별 미국 인구입니다. 이 데이터 세트의 출처는 미국 인구 조사국입니다.
보스턴 안전 데이터	보스턴시에 신고된 311 통화에 대한 데이터를 읽어보세요. 이 데이터 세트는 Parquet 형식으로 저장되며 매일 업데이트됩니다.
시카고 안전 데이터	시카고시에 신고된 311 통화에 대한 데이터를 읽어보세요. 이 데이터 세트는 Parquet 형식으로 저장되며 매일 업데이트됩니다.
뉴욕시 안전 데이터	이 데이터 세트는 2010년부터 현재까지의 모든 뉴욕시 311 서비스 요청을 포함하며, Parquet 형식으로 저장되고 매일 업데이트됩니다.
샌프란시스코 안전 데이터	샌프란시스코 소방서에서 서비스 및 311 사례를 요청합니다. 이 데이터 세트는 2015년부터 현재까지 누적된 기록 레코드를 포함합니다.
시애틀 안전 데이터	시애틀 소방서 911 파견입니다. 이 데이터 세트는 매일 업데이트되며 2010년부터 현재까지 누적된 기록 레코드를 포함합니다.

추가 및 공통 데이터 세트

데이터 세트	설명
당뇨병	Diabetes 데이터 세트에는 10개 특성이 포함된 442개 샘플이 있으며, 이는 기계 학습 알고리즘을 시작하는 데 적합합니다.
OJ 판매 시뮬레이션 데이터	이 데이터 세트는 Dominick의 OJ 데이터 세트에서 파생된 것이며, Azure Machine Learning에서 수천 개의 모델을 동시에 쉽게 학습시킬 수 있는 데이터 세트를 제공할 목표로 시뮬레이션된 추가 데이터를 포함합니다.
필기 숫자의 MNIST 데이터베이스	필기 숫자 MNIST 데이터베이스에는 예제 60,000개가 있는 학습 세트와 예제 10,000개가 있는 테스트 세트가 포함됩니다. 이 숫자는 크기가 표준화되었고 고정 크기 이미지로 중앙에 배치됩니다.
Microsoft 뉴스 권장 사항 데이터 세트	MIND(Microsoft 뉴스 데이터 세트)는 뉴스 권장 사항 연구를 위한 대규모 데이터 세트입니다. 뉴스 추천의 벤치마크 데이터 세트 역할을 하고 뉴스 추천 및 추천 시스템을 쉽게 연구할 수 있도록 합니다.
공휴일	전 세계 공휴일 데이터는 PyPI 휴일 패키지 및 Wikipedia에서 가져왔으며 1970년부터 2099까지 38개 국가 및 지역을 포함합니다.
러시아어 음성 텍스트로 열기	러시아어 Open STT는 러시아어용 대규모 오픈 음성 텍스트 변환 데이터 세트입니다.