Conjuntos de datos abiertos de Azure

Artículo
01/10/2024

Mejore la precisión de los modelos de aprendizaje automático con conjuntos de datos disponibles públicamente. Ahorre tiempo en la detección y preparación de datos mediante conjuntos de datos seleccionados listos para su uso en proyectos de aprendizaje automático.

Transporte

Dataset	Descripción
TartanAir: conjunto de datos de simulación de AirSim	AirSim son datos de vehículos autónomos generados para solucionar la localización y el mapeo simultáneos (SLAM).
NYC Taxi & Limousine Commission - yellow taxi trip records	Los registros de las carreras de los taxis amarillos incluyen las fechas y horas de inicio y fin, así como los lugares de inicio y fin, las distancias de las carreras, las tarifas desglosadas, los tipos de tarifa, los tipos de pago y los recuentos de pasajeros notificados por el conductor.
NYC Taxi & Limousine Commission - green taxi trip records	Los registros de las carreras de los taxis verdes incluyen las fechas y horas de inicio y fin, así como los lugares de inicio y fin, las distancias de las carreras, las tarifas desglosadas, los tipos de tarifa, los tipos de pago y los recuentos de pasajeros notificados por el conductor.
NYC Taxi & Limousine Commission - For-Hire Vehicle (FHV) trip records	Los registros de las carreras de vehículos de alquiler incluyen el número de licencia de la central y la fecha, la hora y el identificador de la ubicación de la parada de taxi donde se recoge a los pasajeros.

Salud y genómica

Dataset	Descripción
Lago de datos de COVID-19	La colección del lago de datos de la covid-19 contiene conjuntos de datos relacionados con la covid-19 procedentes de varios orígenes y abarca información de seguimiento de resultados de pacientes y pruebas, directivas de distanciamiento social, capacidad hospitalaria, movilidad, etc.
COVID-19 Open Research Dataset	Un conjunto de datos de texto completo y metadatos de covid-19 y artículos académicos relacionados con el coronavirus optimizados para la legibilidad por máquina y disponibles para que los utilice la comunidad de investigación global.
Lago de datos de Genomics	El lago de datos de Genomics proporciona una gran variedad de conjuntos de datos públicos de acceso gratuito que puede integrar en sus aplicaciones y flujos de trabajo de análisis genómicos. Los conjuntos de datos incluyen secuencias genómicas, información de las variantes y metadatos sobre las muestras o los sujetos con los formatos de archivo BAM, FASTA, VCF y CSV.

Mano de obra y economía

Dataset	Descripción
Estadísticas de población activa de Estados Unidos	US Labor Force Statistics ofrece estadísticas de población activa, tasas de participación en la población activa y población civil no institucional por edad, sexo, raza y grupo étnico. en Estados Unidos.
Horario laboral y salarios de ámbito nacional de Estados Unidos	El programa Current Employment Statistics (CES) realiza cálculos detallados sobre el empleo, el horario y los ingresos de los trabajadores en plantilla fuera del sector agrario en Estados Unidos.
Horario laboral y salarios de ámbito estatal de Estados Unidos	El programa Current Employment Statistics (CES) realiza cálculos detallados sobre el empleo, el horario y los ingresos de los trabajadores en plantilla fuera del sector agrario en Estados Unidos.
Estadísticas de desempleo por áreas de Estados Unidos	Los conjuntos de datos de Local Area Unemployment Statistics (LAUS) de Estados Unidos producen datos de empleo, desempleo y población activa mensual y anualmente para las regiones y divisiones censales, los estados, los condados, las áreas metropolitanas y muchas ciudades de Estados Unidos.
Índice de precios al consumo de Estados Unidos	El índice de precios al consumo (IPC) es una medida de la variación media a lo largo del tiempo en los precios que pagan los consumidores urbanos por una cesta de la compra de bienes de consumo y servicios.
Índice de precios al productor de Estados Unidos: industria	El índice de precios al productor (IPP) es una medida de la variación media a lo largo del tiempo de los precios de venta que reciben los productores nacionales por su producción.
Índice de precios al productor de Estados Unidos: productos	El índice de precios al productor (IPP) es una medida de la variación media a lo largo del tiempo de los precios de venta que reciben los productores nacionales por sus productos.

Población y seguridad

Dataset	Descripción
Población de Estados Unidos por condado	Población de Estados Unidos por sexo y raza en cada condado del país según los censos decenales de 2000 y 2010. Este conjunto de datos proviene de la Oficina del Censo de los Estados Unidos.
Población de Estados Unidos por código postal	Población de Estados Unidos por sexo y raza en cada código postal del país según el censo decenal de 2010. Este conjunto de datos proviene de la Oficina del Censo de los Estados Unidos.
Datos de seguridad de Boston	Lea datos sobre llamadas al número 311 en la ciudad de Boston. Este conjunto de datos se almacena en formato Parquet y se actualiza a diario.
Datos de seguridad de Chicago	Lea datos sobre llamadas al número 311 en la ciudad de Chicago. Este conjunto de datos se almacena en formato Parquet y se actualiza a diario.
Datos de seguridad de Nueva York	Este conjunto de datos contiene todas las solicitudes de servicio en el número 311 de la ciudad de Nueva York desde 2010 hasta la actualidad. Se almacena en formato Parquet y se actualiza diariamente.
Datos de seguridad de San Francisco	Llamadas de servicio a los bomberos y casos del número 311 en San Francisco. Este conjunto de datos contiene registros históricos acumulados desde 2015 hasta la actualidad.
Datos de seguridad de Seattle	Servicios de los bomberos de Seattle por llamadas al 911. Este conjunto de datos se actualiza a diario y contiene registros históricos acumulados desde 2010 hasta la actualidad.

Conjuntos de datos complementarios y comunes

Dataset	Descripción
Diabetes	El conjunto de datos de Diabetes tiene 442 muestras con 10 características, por lo que es ideal para comenzar con algoritmos de aprendizaje automático.
Datos simulados de ventas de OJ	Este conjunto de datos se deriva del conjunto de datos OJ de Dominick e incluye datos simulados adicionales con el fin de ofrecer un conjunto de datos que facilite el entrenamiento simultáneo de miles de modelos en Azure Machine Learning.
Base de datos MNIST de dígitos manuscritos	La base de datos MNIST de dígitos manuscritos tiene un conjunto de entrenamiento de 60 000 ejemplos y un conjunto de prueba de 10 000 ejemplos. Los dígitos tienen un tamaño normalizado y están centrados en una imagen de tamaño fijo.
Conjunto de datos de recomendaciones de Microsoft News	MIcrosoft News Dataset (MIND) es un conjunto de datos a gran escala para la investigación de recomendaciones de noticias. Sirve como un conjunto de datos de referencia para la recomendación de noticias y facilita la investigación en el ámbito de los sistemas de recomendación y la recomendación de noticias.
Festivos nacionales	Datos sobre los días festivos de todo el mundo procedentes del paquete PyPI holidays y de Wikipedia, que cubren 38 países o regiones desde 1970 hasta 2099.
Conversión de voz en texto abierta en ruso	Russian Open STT es un conjunto de datos de conversión de voz en texto abierta a gran escala para el idioma ruso.