Azure Open Datasets

Artigo
06/15/2023

Melhore a precisão dos modelos de machine learning com conjuntos de dados disponíveis publicamente. Economize tempo na descoberta e preparação de dados usando conjuntos de dados coletados, que estão prontos para uso, em projetos de machine learning.

Transporte

Dataset	Descrição
TartanAir: Conjunto de dados de simulação do AirSim	Dados de veículos autônomos do AirSim gerados para resolver o SLAM (Localização e Mapeamento Simultâneos).
Comissão de táxis e limusines de Nova York – registros de corridas de táxis amarelos	Os registros de viagem de táxi amarelo incluem as datas/horas e localizações de partida e chegada, distâncias, tarifas discriminadas, tipos de taxa, tipos de pagamento, e contagens de passageiro relatadas pelo motorista.
Comissão de táxis e limusines de Nova York – registros de corridas de táxis verdes	Os registros de viagem de táxi verde incluem as datas/horas e localizações de partida e chegada, distâncias, tarifas discriminadas, tipos de taxa, tipos de pagamento, e contagens de passageiro relatadas pelo motorista.
Comissão de táxis e limusines de Nova York – registros de viagem de veículos para locação (FHV)	Os registros de viagem em veículo para locação incluem o número da licença de base despachada, a data e hora da retirada e a ID da localização da zona de táxi.

Saúde e genômica

Dataset	Descrição
Data lake COVID-19	O Data Lake COVID-19 é uma coleção de conjuntos de dados relacionados à COVID-19 de várias fontes, que abrangem dados de teste e acompanhamento de resultados do paciente, políticas de distanciamento social, capacidade de hospitais, mobilidade etc.
Conjunto de Dados de Pesquisa Aberta sobre a COVID-19	Um conjunto de dados de texto completo e metadados de artigos acadêmicos relacionados à COVID-19 e ao coronavírus otimizados para facilitar a leitura pelo computador e disponibilizados para uso pela comunidade global de pesquisa.
Data lake Genomics	O Data Lake Genomics conta com vários conjuntos de dados públicos que podem ser acessados gratuitamente e integrados aos seus aplicativos e fluxos de trabalho de análise genômica. Os conjuntos de dados incluem sequências de genoma, informações sobre variantes e metadados do indivíduo/da amostra nos formatos de arquivo BAM, FASTA, VCF e CSV.

Trabalho e economia

Dataset	Descrição
Estatísticas de força de trabalho nos EUA	As Estatísticas da Força de Trabalho dos EUA fornecem estatísticas da força de trabalho, taxas de participação da força de trabalho e população civil não institucional por idade, gênero, raça e grupos étnicos. nos Estados Unidos.
Emprego, horas e ganhos nacionais nos EUA	O programa das CES (Estatísticas Atuais de Emprego) produz estimativas detalhadas da indústria de empregos não agrícolas, horas e salários de trabalhadores em folhas de pagamento nos Estados Unidos.
Emprego, horas e ganhos estaduais nos EUA	O programa das CES (Estatísticas Atuais de Emprego) produz estimativas detalhadas da indústria de empregos não agrícolas, horas e salários de trabalhadores em folhas de pagamento nos Estados Unidos.
Estatísticas de desemprego por local nos EUA	Os conjuntos de dados de Estatísticas de Desemprego na Área Local dos EUA produz dados mensais e anuais de emprego, desemprego e da força de trabalho nas regiões e divisões do Censo, Estados, condados, áreas metropolitanas e muitas cidades dos Estados Unidos.
Índice de preços ao consumidor dos EUA	O CPI (Índice de Preços ao Consumidor) é a medida da média de alteração ao longo do tempo dos preços pagos por consumidores urbanos por uma cesta básica de bens e serviços.
Índice de preços ao produtor dos EUA – indústria	O PPI (Índice de Preços ao Produtor) é uma medida da média de alterações ao longo do tempo nos preços de venda recebidos por produtores domésticos por sua produção.
Índice de preços ao produtor dos EUA – mercadorias	O PPI (Índice de Preços ao Produtor) é uma medida da média de alterações ao longo do tempo nos preços de venda recebidos por produtores domésticos por suas mercadorias.

População e segurança

Dataset	Descrição
População dos EUA por condado	População dos EUA por gênero e raça para cada condado do país, originada do censo decenal de 2000 e 2010. Este conjunto de dados é produzido pelo Departamento do Censo dos Estados Unidos.
População dos EUA por CEP	População dos EUA por gênero e raça para cada CEP do país, originada do censo decenal de 2010. Este conjunto de dados é produzido pelo Departamento do Censo dos Estados Unidos.
Dados de segurança de Boston	Leia dados sobre as chamadas ao número 311 relatadas na cidade de Boston. Este conjunto de dados está armazenado no formato Parquet e é atualizado diariamente.
Dados de segurança de Chicago	Leia dados sobre as chamadas ao número 311 relatadas na cidade de Chicago. Este conjunto de dados está armazenado no formato Parquet e é atualizado diariamente.
Dados de segurança da cidade de Nova York	Este conjunto de dados contém todas as solicitações de serviço ao número 311 da cidade de Nova York de 2010 até agora. Itâ€™s fica armazenado no formato Parquet e é atualizado diariamente.
Dados de segurança de São Francisco	Chamadas de serviço ao corpo de bombeiros e casos do 311 em São Francisco. Este conjunto de dados contém registros históricos acumulados de 2015 até o presente.
Dados de segurança de Seattle	Despachos do corpo de bombeiros de Seattle para a central de emergência. Este conjunto de dados é atualizado diariamente e contém registros históricos acumulados de 2010 até agora

Conjuntos de dados complementares e comuns

Dataset	Descrição
Diabetes	O conjunto de dados Diabetes tem 442 amostras com dez recursos, tornando-o ideal para começar a usar algoritmos de aprendizado de máquina.
Dados simulados de vendas de OJ	Esse conjunto de dados é derivado do conjunto de dados sobre sucos de laranja da rede de lojas Dominick’s e inclui dados extra simulados com a meta de fornecer um conjunto de dados que facilite o treinamento simultâneo de milhares de modelos no Azure Machine Learning.
Banco de dados MNIST de dígitos manuscritos	O banco de dados MNIST de dígitos manuscritos tem um conjunto de treinamento com 60.000 exemplos e um conjunto de teste com 10.000 exemplos. Os dígitos foram normalizados em termos de tamanho e centralizados em uma imagem de tamanho fixo.
Conjunto de dados de recomendações do Microsoft Notícias	O MIND (Conjunto de dados do Microsoft Notícias) é um conjunto de dados de grande escala para a pesquisa de notícias de recomendação. Ele serve como um conjunto de dados de referência para recomendação de notícias e facilita a pesquisa em recomendações de notícias e sistemas de recomendação.
Feriados	Dados de feriados mundiais originados do pacote de feriados PyPI e da Wikipédia, cobrindo 38 países ou regiões de 1970 a 2099.
Conversão de fala em texto em russo	O Russian Open STT é um conjunto de dados aberto e em grande escala de conversão de fala em texto para o idioma russo