Azure Open Datasets

Artigo
01/10/2024

Melhorar a precisão dos seus modelos de machine learning com conjuntos de dados disponíveis publicamente. Economize tempo na descoberta e preparação de dados usando conjuntos de dados selecionados que estão prontos para uso em projetos de aprendizado de máquina.

Transportes

Conjunto de dados	Description
TartanAir: Conjunto de dados de simulação AirSim	Dados do veículo autônomo AirSim gerados para resolver Localização e Mapeamento Simultâneos (SLAM).
NYC Taxi & Limousine Commission - registros amarelos de viagem de táxi	Os registros de viagem de táxi amarelo incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista.
NYC Taxi & Limousine Commission - registros de viagem de táxi verde	Os registros de viagem de táxi verde incluem datas/horários de embarque e desembarque, locais de embarque e desembarque, distâncias da viagem, tarifas discriminadas, tipos de tarifa, tipos de pagamento e contagens de passageiros relatadas pelo motorista.
NYC Taxi & Limousine Commission - Registros de viagem do For-Hire Vehicle (FHV)	Os registos de viagem do Veículo de Aluguer incluem o número da licença base de expedição e a data, hora e ID da zona de táxi de recolha.

Saúde e genómica

Conjunto de dados	Description
COVID-19 Data Lake	A coleção do Data Lake relacionada com a COVID-19 é uma coleção de conjuntos de dados relacionados com a COVID-19 provenientes de diversas origens, que abrangem dados de teste e rastreio de resultados de pacientes, política de distanciamento social, capacidade dos hospitais, mobilidade, etc.
Conjunto de dados de pesquisa aberta COVID-19	Um conjunto de dados de texto completo e metadados de artigos académicos sobre a COVID-19 e relacionados com o coronavírus otimizados para legibilidade automática e disponibilizados para utilização pela comunidade de investigação global.
Lago de Dados Genómicos	O Genomics Data Lake fornece vários conjuntos de dados públicos que você pode acessar gratuitamente e integrar em seus fluxos de trabalho e aplicativos de análise genômica. Os conjuntos de dados incluem sequenciação de genomas, informações de variantes e metadados de sujeitos de experiências/exemplo nos formatos de ficheiro BAM, FASTA, VCF e CSV.

Trabalho e economia

Conjunto de dados	Description
US Labor Force Statistics (Estatísticas da Mão-de-Obra dos E.U.A.)	O US Labor Force Statistics fornece estatísticas de mão-de-obra, taxas de participação de mão-de-obra e de população civil não institucional por idade, género, raça e grupos étnicos. nos Estados Unidos.
US National Employment Hours and Earnings (Salários e Horários de Emprego a Nível Nacional nos E.U.A.)	O programa Current Employment Statistics (CES, Estatísticas de Emprego Atuais) produz estimativas detalhadas dos vários setores de atividade, excluindo trabalhadores agrícolas, empregados de organizações sem fins lucrativos e trabalhadores domésticos, relativas a emprego, horário e rendimentos dos trabalhadores por conta de outrem nos Estados Unidos.
Salários e Horários de Emprego a Nível Estadual nos E.U.A.	O programa Current Employment Statistics (CES, Estatísticas de Emprego Atuais) produz estimativas detalhadas dos vários setores de atividade, excluindo trabalhadores agrícolas, empregados de organizações sem fins lucrativos e trabalhadores domésticos, relativas a emprego, horário e rendimentos dos trabalhadores por conta de outrem nos Estados Unidos.
US Local Area Unemployment Statistics (Estatísticas de Desemprego a Nível Local nos E.U.A.)	Os conjuntos de dados do programa US Local Area Unemployment Statistics fornecem dados mensais e anuais relativos a emprego, desemprego e mão-de-obra para regiões e divisões do Census, estados, condados, áreas metropolitanas e muitas cidades dos Estados Unidos.
US Consumer Price Index (Índice de Preço do Consumidor dos EUA)	O Índice de Preços no Consumidor (CPI) é uma medida da alteração média ao longo do tempo nos preços que os consumidores urbanos pagam para um cabaz de compras de bens e serviços de consumo.
US Producer Price Index - Industry (Índice de Preços do Produtor dos EUA - Indústria)	O Índice de Preços no Produtor (IPP) é uma medida da mudança média ao longo do tempo nos preços de venda que os produtores domésticos recebem pelos seus produtos.
US Producer Price Index - Commodities (Índice de Preços do Produtor dos EUA - Matérias-primas)	O Índice de Preços no Produtor (IPP) é uma medida da mudança média ao longo do tempo nos preços de venda que os produtores domésticos recebem pelos seus produtos.

População e segurança

Conjunto de dados	Description
População dos EUA por Condado	A população dos EUA por género e etnia de cada condado dos EUA extraída do Census de decénio de 2000 e 2010. Este conjunto de dados provém da Divisão do Censo dos Estados Unidos.
População dos EUA por Código Postal	A população dos EUA por género e etnia de cada código postal dos EUA extraído do Census de decénio de 2010. Este conjunto de dados provém da Divisão do Censo dos Estados Unidos.
Dados de segurança de Boston	Ler dados relativos a chamadas ao 311 reportadas à cidade de Boston. Este conjunto de dados é armazenado no formato Parquet e atualizado diariamente.
Dados de segurança de Chicago	Ler dados relativos a chamadas ao 311 reportadas à cidade de Chicago. Este conjunto de dados é armazenado no formato Parquet e atualizado diariamente.
Dados de segurança da cidade de Nova Iorque	Este conjunto de dados contém todos os pedidos de emergência de 311 de Nova Iorque desde 2010 até hoje. ™É armazenado em formato Parquet e atualizado diariamente.
Dados de segurança de São Francisco	Chamadas para os Bombeiros para emergências e incidentes de 311 em São Francisco. Este conjunto de dados contém registos históricos acumulados desde 2015 até ao presente.
Dados de segurança de Seattle	Despachos do 112 dos Bombeiros de Seattle. Este conjunto de dados é atualizado diariamente e contém registos históricos acumulados desde 2010 até ao presente

Conjuntos de dados suplementares e comuns

Conjunto de dados	Description
Diabetes	O conjunto de dados Diabetes tem 442 amostras com 10 funcionalidades, o que faz com que seja ideal para começar a trabalhar com algoritmos de aprendizagem automática.
Dados simulados de vendas do JO	Esse conjunto de dados é derivado do conjunto de dados OJ de Dominick e inclui dados simulados extras com o objetivo de fornecer um conjunto de dados que facilite o treinamento simultâneo de milhares de modelos no Azure Machine Learning.
Base de dados MNIST de dígitos manuscritos	A base de dados MNIST de dígitos manuscritos tem um conjunto de preparação com 60 000 exemplos e um conjunto de testes com 10 000 exemplos. O tamanho dos dígitos foi normalizado e centrado numa imagem de tamanho fixo.
Conjunto de dados de recomendação do Microsoft News	O Microsoft News Dataset (MIND) é um conjunto de dados em grande escala para pesquisa de recomendações de notícias. Ele serve como um conjunto de dados de referência para recomendação de notícias e facilita a pesquisa em sistemas de recomendação e recomendação de notícias.
Feriados	Dados de feriados nacionais de todo o mundo obtidos com base nos pacotes de férias PyPI e na Wikipedia, abrangendo 38 países ou regiões de 1970 a 2099.
Discurso aberto russo ao texto	Russian Open STT é um conjunto de dados de fala aberta em grande escala para texto para a língua russa